以 真实 操作 系统 的 实际 运行 为 主线 ， 以 图 形 图 像 为 核心 ， 突 出 描述 操作 系统 在 实际 
运行 过 程 中 内 存 的 运行 时 结构 ; 从 操作 系统 设计 者 的 视角 ， 用 体系 的 思想 方法 ， 深 
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第 1 版 与 第 2 版 的 区 别 
本 书 内 容 及 特色 
为 什么 本 书 选 用 Linux 0.11 内 核 
致谢 
第 1 章 ” 从 开机 加 电 到 执行 main 函 数 之 前 的 过 程 
1.1 局 动 BIOS， 准 备 实 模式 下 的 中 断 癌 量 表 和 
中 断 服务 程序 
1.1.1 BIOS 的 启动 原理 
1.1.2 BIOS 在 内 存 中 加 载 中 断 问 量 表 和 中 断 
服务 程序 
1.2 ”加 载 操作 系统 内 核 程序 并 为 保护 模式 做 准备 
1.2.1 加 载 第 一 部 分 内 核 代 码 一 一 引导 程序 
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为 什么 写 这 本 书 


很 早 就 有 一 个 想法 ， 做 中 国人 自己 的 、 有 所 突 
破 、 有 所 创新 的 操作 系统 、 计 算 机 语言 及 编译 平 


Zs 
FJ o 








我 市 领 的 “新 设计 团队 ”( 主 要 由 中 国 科 学 院 研 
完 生 院 毕 业 的 学 生 组 成 ) 在 实际 开 肥 目 己 的 操作 系 
统 的 过 程 中 ， 最 先 遇 到 的 问题 融 是 如 何 培 养 学 生 真 
正 看 司 Linux 操 作 系统 的 源 代 码 的 能 力 。 开 源 的 
Linux 操 作 系 统 的 源 代 码 很 容易 找到 ， 但 很 快 融会 
发 现 ， 培 养 学 生 看 懂 Linux 操 作 系统 的 源 代 码 是 一 
件 非 第 困难 的 事 。 
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几 百 万 行 ， 即 使 浏览 一 过 也 要 很 长 时 间 。 比 庞大 的 
代码 量 更 让 学 习 者 绝望 的 是 操作 系统 有 着 极其 错 综 
复 森 的 关系 。 看 上 去 ， 代 码 的 执行 序 时 隐 时 现 ， 很 
难 抓 住 脉 络 。 代 码 之 间 相 互 牵 扯 ， 相 互 勺 连 ， 几 乎 
无 法 理 出 头绪 ， 更 谈 不 上 理解 代码 背后 的 原理 、 意 
图 和 思想 。 














对 于 学 生 而 言 ， 选 择 从 源 代 码 的 什么 地 方 开始 
分 析 ， 本 里 就 是 一 个 难题 。 通 常 ， 学 生 有 两 种 选 
择 : 一 种 是 从 main 函 数 ， 也 就 是 从 C 语 言 代码 的 总 
入 口 开 始 ， 沿 着 源 代码 的 调用 路 线 一 行 一 行 地 看 下 
去 ， 学 生 很 快 融会 发 现 源 代码 的 调用 路 线 葛 名 其 妙 
地 断 了 ， 但 直觉 和 和 常识 告诉 他 操作 系统 肯定 不 会 在 
这 个 地 方 集 止 ,一定 还 在 继续 运行 ， 却 不 知道 后 续 














的 代码 在 哪里 ， 这 种 方法 很 快 就 走 进 了 和 死 衣 同 ; 5 
一 种 则 是 从 茶 一 模块 入 手 ， 如 文件 系统 ， 但 这 样 会 
无 形 中 切断 操作 系统 源码 之 间 复 杂 的 关系， 如 文件 
系统 与 进程 管理 的 天 系 ， 文 件 系 统 与 内 存 管理 的 关 
系 ， 等 等 。 学 生 如 果 孤 立地 去 理解 一 个 模块 ， 往 往 
只 能 记 住 一 些 名 词 和 简单 概念 ， 难 以 真正 理解 操作 
系统 的 全 貌 。 用 学 生 的 话 讲 ， 他 们 理解 的 操作 系统 
变 成 了 “文科 ”的 操作 系统 。 





























由 于 操作 系统 是 底层 系统 程序 ， 对 应 用 程序 行 
之 有 效 的 调试 和 跟踪 等 手段 对 操作 系统 的 源 代 码 而 
言 ， 儿 乎 无 效 。 学 生 束 算 把 每 一 行 源 代码 部 看 异 
了 ， 对 源 代码 已 经 烂熟 于 心 ， 知 道 这 一 行 古 一 个 for 
循环 ， 那 一 行 是 一 个 调用 .…… 但 仍然 不 知道 整个 代 
人 码 完 竟 在 做 什么 以 及 起 到 什么 作用 ， 更 不 知 趾 设计 








者 的 意图 完 苋 是 什么 。 








学 生 在 操作 系统 谍 程 上 学 习 过 进程 管理 、 内 存 
管理 、 文 件 系统 等 基础 知识 ， 但 是 对 这 些 空洞 的 理 
论 在 一 个 实际 的 操作 系统 中 是 如 何 实现 的 却 不 得 而 
知 。 他 们 在 源 代码 中 很 难看 出 进程 和 内 存 之 间 有 什 
么 关联 ， 内 核 程序 和 用 户 程序 有 什么 区 别 ， 为 什么 
要 有 这 些 区 别 ;， 也 很 难 从 源 代码 中 看 消 楚 ， 我 们 实 
际 经 常用 到 的 操作 ， 比 如 打开 文件 ， 操 作 系 统 在 其 
中 都 做 了 哪些 具体 的 工作 。 想 在 与 常见 的 应 用 程序 
HSE TIA EK Ae A. RT A Se u 
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乎 比 登 天 还 难 。 

















对 油 悉 操作 系统 源 代码 的 学 生 而 言 ， 他 们 也 知 
道 像 分 页 机 制 这 样 的 知识 后， 知道 大 干 级 的 分 页 及 
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的 深刻 意义 


这 些 都 是 学 生 在 学 习 Linux 操 作 系 统 源 代码 时 
过 到 的 实际 问题 。 中 国 科 学 院 研究 生 院 的 学 生 应 该 
是 年 轻 人 中 的 佼佼 者 ， 他 们 遇 到 的 问题 可 能 其 他 读 
者 也 会 遇 到 。 我 萌发 了 一 个 想法 ， 虽 然 学 生 的 问题 
早已 解决 ， 但 是 否 可 以 把 他 们 曾经 在 学 习 、 研 发 操 
作 系 统 的 过 程 中 遇 到 的 问题 和 心得 体会 拿 出 来 供 广 
大 读者 分 享 














当时 ， 人 针对 学 生 的 实际 问题 ， 我 的 解决 方法 是 
以 一 个 真实 的 操作 系统 为 例 ， 让 学 生理 解 源 代码 并 
把 操作 系统 在 内 存 中 的 运行 时 状态 画 出 图 来 。 实 践 
证 明 ， 这 个 方法 简单 有 效 。 














现在 我 们 把 这 个 解决 方案 体现 在 这 本 书 中 。 这 
就 是 以 一 个 真实 的 操作 系统 的 实际 运行 为 主线 ;以 
图 形 、 图 像 为 核心 ， 突 出 描述 操作 系统 在 实际 运行 
过 程 中 内 存 的 运行 时 结构 :强调 学 生 站 在 操作 系统 
设计 者 的 视角 ， 用 体系 的 思想 方法 ， 整 体 把 握 操 作 
系统 的 行为 、 作 用 、 目 的 和 意义 。 

















第 1 版 与 第 2 版 的 区 别 


第 2 版 较 第 1 版 有 较 大 有 的 改动 。 





从 忌 体 结构 上 ， 将 第 1 版 的 第 2 章 拆 分 为 第 2 版 
的 第 2 章 、 第 3 章 、 第 4 章 。 这 样 的 拆 分 对 操作 系统 
启动 部 分 的 系统 初始 化 、 激 活 进程 0、 创 建 进程 1、 
创建 进程 2 的 层次 划分 更 清晰 。 各 章 内 容 的 分 量 也 
比较 均衡 ， 阅 读 感 受 会 更 好 。 





根据 读者 的 反馈 意见 ， 第 2 版 增加 了 一 些 示 音 
图 ， 在 源 代 码 中 增加 了 大 量 的 注释 ， 对 操作 系统 的 
架构 表述 得 更 直观 ， 对 源 代 码 讲解 得 更 细致 。 这 些 
是 第 2 厂 改 动 最 大 、 下 功夫 最 多 的 地 方 。 希 望 我 们 
的 努力 能 给 读者 带 来 更 多 的 帮助 。 


本 书 内 容 太 特色 


在 全 书 的 讲解 过 程 中 ， 我 们 不 仅 详 细 分 析 了 源 
代码 、 分 析 了 操作 系统 的 执行 序 ， 还 特别 分 析 了 操 
作 系 统 孝 做 了 哪些 “ 事 ”， 并 且 对 于 “ 事 ” 与 “ 事 ” 之 加 
的 关系 和 来 龙 去 脉 ， 这 些 “ 事 ”意味 着 什么 ， 为 什么 
BE BUR EEE”, CHEE a Bert A eT 


么 .……… 都 做 了 非常 详细 且 深 入 的 分 析 。 


更 重要 的 是 ， 对 于 所 有 重要 的 阶段 ， 我 们 几乎 
都 用 图 解 的 方式 把 操作 系统 在 内 存 中 的 实际 运行 状 
态 精 确 地 表示 了 出 来 。 我 们 用 600 dpi 的 分 辩 计 精心 
绘制 了 300 多 张 图 ， 图 中 表现 的 运行 时 结构 和 状态 
与 操作 系统 实际 运行 的 真实 状态 完全 吻合 。 对 每 一 
条 线 、 每 一 个 色 块 、 每 一 个 位 置 、 每 一 个 地 址 及 每 








一 个 数字 ， 我 们 都 经 过 了 认真 反复 地 推演 和 求证 ， 
并 最 终 在 计算 机 上 进行 了 核对 和 验证 。 看 了 这 些 绘 
HRN AS, wee SKA ARE ATT. 
BRER A ABZ URS, MEREK 
一 件 件 清晰 的 * 事 ”， 以 及 这 些 “ 事 ”在 内 存 中 直 堆 了 
当 、 清 晰 鲜 活 的 画面 。 用 这 样 的 方法 讲解 操作 系统 
是 本 书 的 一 大 特色 。 理 解 这 些 图 要 比 理解 源 代码 和 
文字 容易 得 多 。 毫 不 夸张 地 说 ， 只 要 你 能 理解 这 些 
图 ， 你 就 理解 了 操作 系统 的 80%。 这 时 你 可 以 自爱 
地 说 ， 你 比 大 多 数 用 别 的 方法 学 过 操作 系统 的 人 的 
TK AF AB ES ay HH KA o 




















作者 和 机 械 工 业 出 版 社 的 编辑 做 了 大 量 的 检索 
工作 。 丈 我 们 检索 的 范围 而 言 ， 这 样 的 创作 方法 及 
具有 这 样 特 色 的 操作 系统 专车 在 世界 范围 都 是 第 一 











本 书 分 三 部 分 来 讲解 Linux 操 作 系 统 : 第 一 部 
分 《第 1 一 4 草 ) 分 机 了 从 开机 加 电 到 操作 系统 局 动 
完成 并 进入 尽 速 状态 的 整个 过 程 ; 第 二 部 分 《第 5 
~B) 讲述 了 操作 系统 进入 系统 亿 速 后 ， 在 执行 
用 户 程 序 的 过 程 中 ， 操 作 系 统 和 用 户 进程 的 实际 运 


行 过 程 和 状态 ， 第 三 部 分 〈 第 9 和 章 ) 曾 述 整个 Linux 














操作 系统 的 设计 指导 思想 ， 是 从 微观 到 宏观 的 回 
H. 


第 一 部 分 中 ， 我 们 详细 讲解 了 开机 加 电 启 动 
BIOS， 通 过 BIOS 加 载 操作 系统 程序 ， 对 主机 的 初 
始 化 ， 打 开 保护 模式 和 分 页 ， 调 用 main 函 数 ， 创 建 
进程 0、 进 程 1、 进 程 2 以 及 shell 进 程 ， 并 且 有 具备 用 
文件 的 形式 与 外 设 交 互 。 


第 二 部 分 中 ， 我 们 设计 了 几 个 尽 可 能 简单 又 有 
代表 性 的 应 用 程序 ， 并 以 这 些 程序 的 执行 为 引导 ， 
详细 讲解 了 安装 文件 系统 、 文 件 操作 、 用 户 进程 与 
内 存 管理 、 多 个 进程 对 文件 的 操作 以 及 进程 间 通 
信 。 


我 们 将 操作 系统 的 原理 上 自然而然 地 融入 了 讲解 
真实 操作 系统 的 实际 运行 过 程 中 。 在 读者 看 来 ， 操 
作 系 统 原理 不 再 是 空 对 空 的 、“ 文 科 ” 概 念 的 计算 机 
理论 ， 而 是 既 有 完整 且 体 系 的 理论 ， 义 有 真实 、 具 
体 、 实 际 的 代码 和 条 例 ， 理 论 与 实际 紧密 结合 。 





























第 三 部 分 是 全 书 水 平 最 高 的 部 分 ， 详 细 前 述 了 
主 妈 机 制 以 及 实现 主公 机 制 的 三 项 关键 技术 : 保护 
和 分 页 、 特 权 级 、 中 断 ， 分 析 了 保障 主公 机 制 实现 
的 决定 性 因素 一 先 机 ， 还 详细 讲解 了 绥 冲 区 、 共 至 
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作 系 统 设计 者 的 视角 讲解 操作 系统 的 设计 指导 由 
想 。 和 希望 帮助 读者 用 体系 的 思想 理解 、 把 握 、 驾 驭 
整个 操作 系统 以 及 背后 的 设计 思想 和 设计 意图 。 





在 本 书 中 ， 我 们 详细 讲解 了 大 家 在 学 习 操作 系 
统 的 过 程 中 可 能 会 遇 到 的 每 一 个 难点 ， 如 main 函 效 
中 的 pause〈) 调用 ， 虽 然 已 经 找 不 到 后 续 代 人 码 ， 但 
该 调用 结束 后 ， 程 序 仍 然 执行 的 原因 是 : 中 断 己 经 
打开 ， 进 程 调度 就 开始 了 ， 而 此 时 可 以 调度 的 进程 
只 有 进程 1， 所 以 后 续 的 代码 应 该 从 进程 1 处 继续 执 





我 们 还 对 读者 不 容易 理解 和 掌握 的 操作 系统 特 
有 的 底层 代码 的 一 些 编程 技巧 做 了 详细 的 讲解 ， 如 
用 模拟 call 的 方法 ， 通 过 ret 指 令 “ 调 用 ”main 世 | 





总 之 ， 我 们 所 做 的 一 切 努 力 就 是 想 真 正解 决 读 
者 过 到 的 实际 问题 和 难题 ， 给 予 读者 有 效 的 帮助 。 
我 们 盼望 即使 是 刚刚 考 入 大 学 的 学生 也 有 兴趣 和 信 
心 把 这 本 书 读 下 去 ; 我 们 同样 希望 即使 是 对 操作 系 
统 源 代码 很 熟悉 的 读者 ， 这 本 书 也 能 给 他 们 一 些 不 
同 的 视角 、 方 法 和 体系 性 思考 ，。 


为 什么 本 书 选用 Linux 0.11AN 4% 


这 本 书 选 用 的 是 Linux 0.11 操 作 系 统 源 代码 。 
对 为 什么 选用 Linux 0.11 而 不 是 最 新 版 本 ， 赵 炯 先 
生 有 过 非常 精彩 的 论述 。 我 们 认为 赵 先生 的 论述 是 
非常 到 位 的 。 





我 们 不 妨 看 一 下 Linux 最 新 的 版 本 2.6， 代 人 码 量 
大 约 在 干 万 行 这 个 量 级 ， 去 掉 其 中 的 驱动 部 分 ， 代 
码 量 仍 在 百 万 行 这 个 量 级 。 一 个 人 一 秒 钟 看 一 行 ， 
一 天 看 8 小 时 ， 中 间 不 吃 、 不 喝 、 不 休息 ， 也 要 看 
上 几 个 月 ， 很 难 想 象 如 何 去 理 解 。 








就 算 我 们 坚持 要 选用 Linux 2.6， 就 算 我 们 写 上 
2000 页 ( 书 足 足 会 有 十 几 厘 米 厚 ) ， 所 有 的 篇 幅 都 
用 来 印 代 码 ， 也 只 能 印 上 不 到 十 分 之 一 的 代码 。 所 
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解 Linux 2.6。 读 者 会 逐渐 明白 ， 对 于 理解 和 掌握 操 
作 系 统 而 言 ， 真 正 有 价值 的 是 整体 、 是 体系 ， 而 不 


征 局 部 。 


Linux 0.11 的 内 核 代码 虽然 只 有 约 两 万 行 ， 但 
却 是 一 个 实 实在 在 、 不 折 不 扣 的 现代 操作 系统 。 
为 它 具 有 现代 操作 系统 最 重要 的 特征 一 文 持 实时 多 
任务 ， 所 以 必然 支持 保护 和 分 页 .……… 而 且 它 还 是 后 
续 版 本 的 真正 的 始祖 ， 有 着 内 在 的 、 紧 密 的 传承 关 
系 。 读 者 更 容易 看 清 设 计 者 最 初 的 、 最 根本 的 设计 


意图 和 设计 指导 思想 。 

















Linux 0.11 已 经 问世 20 多 年 了 ， 被 世人 广 为 研 
RMJ. FRNA, EERE RR ASE SE 
和 领域 讲 出 新 意 和 特色 ， 对 作者 来 说 也 是 一 个 强 有 


力 的 挑战 。 
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可 的 过 程 





从 开机 到 main 函 数 的 执行 分 三 步 完 成 ， 目 的 是 
实现 从 启动 盘 加 载 操 作 系统 程 序 ， 完 成 执行 nain 函 
数 所 需要 的 准备 工作 。 第 一 步 ， 启 动 BIOS， 准 备 实 
模式 下 的 中 断 向 量 表 和 中 断 服 务 程序 ， 第 二 步 ， 从 
启动 盘 加 载 操 作 系统 程序 到 内 存 ， 加 载 操 作 系统 程 
序 的 工作 巧 是 利用 第 一 步 中 准备 的 中 断 服务 程序 实 
现 的 ， 第 三 步 ， 为 执行 32 位 的 main 函 数 做 过 渡 工 
作 。 本 章 将 详细 分 析 这 三 步 在 计算 机 中 是 如 何 完 成 
的 ， 以 及 每 一 步 在 内 存 中 都 做 了 些 什 么 。 








小 巾 士 


实 模式 (Real Mode) 是 Intel 80286 和 之 后 的 
80x86 兼 容 CPU 的 操作 模式 “〈 应 该 包括 8086) 。 实 
模式 的 特性 是 一 个 20 位 的 存储 器 地 址 空间 (2^20=1 
048 576， 即 1MB 的 存储 器 可 被 寻 址 ) ， 可 以 直接 
软件 访问 BIOS 以 及 周边 硬件 ， 没 有 硬件 文 持 的 分 页 
机 制 和 实时 多 任务 概念 。 从 80286 开 始 ， 所 有 的 
80x86 CPU 的 开机 状态 都 是 实 模式 ;8086 等 早期 的 
CPU 只 有 一 种 操作 模式 ， 类 似 于 实 模式 。 














1.1 启动 BIOS， 准 备 实 模式 下 的 中 断 
向 量 表 和 中 断 服 务 程序 


相信 大 家 都 知道 一 台 计 算 机 必须 要 安装 一 个 所 
谓 “ 操 作 系 统 ” 的 软件 ， 才 能 让 我 们 使 用 计算 机 ， 否 
则 计算 机 将 是 一 堆 毫 无 生命 力 的 冰冷 的 硬 家 伙 。 在 
为 计算 机 安装 了 操作 系统 后 ， 当 你 投下 计算 机 电源 
按钮 的 那 一 刻 ， 计 算 机 机 箱 传 来 了 喻 喻 的 声音 。 这 
时 你 感觉 到 ， 计 算 机 开始 启动 工作 了 。 然 而 ， 在 计 
算 机 的 启动 过 程 中 ， 操 作 系 统 底 层 与 计算 机 硬件 之 
间 究 竟 做 了 哪些 复杂 的 交互 动作 ? 下面 我 们 将 根据 
操作 系统 实际 的 启动 和 运行 过 程 对 此 进行 逐步 的 剖 
析 和 讲解 。 











计算 机 的 运行 是 离 不 开 程 序 的 。 然 而 ， 加 电 的 


一 瞬间 ， 计 算 机 的 内 存 中 ， 准 确 地 说 是 RAM 中 ， 空 
TUWE, PARE IA. BREE HORA RERA 
程序 ， 但 CPU 的 逻辑 电路 被 设计 为 只 能 运行 内 存 中 
的 程序 ， 没 有 能 力 直 接 从 软盘 运行 操作 系统 中 。 

如 条 要 运行 软盘 中 的 操作 系统 ， 必 须 将 软盘 中 的 操 
作 系 统 程序 加 载 到 内 存 CRAM) 中 。 





特别 注意 


我 们 假定 本 书 所 用 的 计算 机 是 基于 IA 一 32 系 列 
CPU， 安 装 了 标准 单 色 显示 器 、 标 准 键盘 、 一 个 软 
YX. — ERM. 16 MB 内 存 ， 在 内 存 中 开辟 了 2 MB 
内 存 作为 虚拟 盘 ， 并 在 BIOS 中 设置 软驱 为 启动 设 
备 。 后 续 所 有 的 讲解 都 以 此 为 基础 。 





小 幅 士 


RAM (Random Access Memory) : 随机 存 取 
存储 左 ， 币 见 的 内 存 条 吏 是 一 类 RAM， 其 特点 是 加 
电 状 态 下 可 任意 恋 、 写 ， 汤 电 后 信息 消失 。 


问题 : 在 RAM 中 什么 程序 也 没有 的 时 候 ， 谁 
来 完成 加 载 软盘 中 操作 系统 的 任务 呢 ? 





答案 是 : BIOS. 


1.1.1 BIOS 的 启动 原理 


在 了 解 BIOS 是 如 何 将 操作 系统 程序 加 载 到 内 
存 中 之 前 ， 我 们 先 来 了 解 一 下 BIOS 程 序 目 身 是 如 何 
司 动 的 。 从 我 们 使 用 计算 机 的 经 验 得 知 : 要 想 执 行 
一 个 程序 ， 必 须 在 窗口 中 双击 它 ， 或 者 在 命令 行 界 
面 中 输入 相应 的 执行 命令 。 从 计算 机 奔 层 机 制 上 
讲 ， 其 实 是 在 一 个 已 经 运行 起 来 的 操作 系统 的 可 视 











化 界面 或 命令 行 界面 中 执行 一 个 程序 。 但 是 ， 在 开 
机 加 电 的 一 瞬间 ， 内 存 中 什么 程序 也 没有 ， 没 有 任 
何 程序 在 运行 ， 不 可 能 有 操作 系统 ， 更 不 可 能 有 操 
作 系 统 的 用 户 界 面 。 我 们 无 法 人 为 地 执行 BIOS 程 
序 ， 那 么 BIOS 程 序 又 是 由 谁 来 执行 的 呢 ? 





秘诀 是 :0xEEFFF0! 


从 体系 的 角度 看 ， 不 难得 出 这 样 的 结论 既然 
用 软件 方法 不 可 能 执行 BIOS， 就 只 能 靠 硬 件 方法 完 
成 了 。 


从 硬件 角度 看 ，Intel 80x86 系 列 的 CPU 可 以 分 
别 在 16 位 实 模 式 和 32 位 保护 模式 下 运行 。 为 了 莱 
容 ， 也 为 了 解决 最 开始 的 启动 问题 ，Intel 将 所 有 
80x86 系 列 的 CPU， 包 括 最 新 型 号 的 CPU 的 硬件 都 





设计 为 加 电 即 进入 16 位 实 模式 状态 运行 。 同 时 ， 还 
有 一 点 非常 关键 的 是 ， 将 CPU 硬件 逻辑 设计 为 加 电 
瞬间 强行 将 CS 的 值 置 为 0xF000、IP 的 值 置 为 
0xFFF0， 这 样 CS: IP 就 指 癌 0xFFFF0 这 个 地 址 位 
置 ， 如 图 (11-1 所 示 。 从 图 1-1 中 可 以 清楚 地 看 到 ， 
0xFFFF0 指 向 了 BIOS 的 地 址 范围 。 





小 贴 士 





IP/EIP (Instruction Pointer) : 指令 指针 寄存 
器 ， 存 在 于 CPU 中 ， 记 录 将 要 执行 的 指令 在 代码 段 
内 的 偏 移 地 址 ， 和 CS 组 合 即 为 将 要 执行 的 指令 的 内 
存 地 址 。 实 模式 为 绝对 地 址 ， 指 令 指针 为 16 位 ， 即 
IP; 保护 模式 下 为 线性 地 址 ， 指 令 指 针 为 32 位 ， 即 
EIP. 


0x00000 实 模式 内 存 寻 址 空间 








FFF 

F¥ CS:0xF000 

电源 开启 IP:0xFFFO 

中 天 处 理 名 0xFFFF0 
(CPU) 





图 1-1 局 动 时 BIOS 在 内 存 的 状态 及 初始 执行 位 
A 


小 巾 士 


CS (Code Segment Register) : 代码 段 寄 存 
人 妖 ， 存 在 于 CPU 中 ， 指 向 CPU 当 前 执行 代码 在 内 存 
中 的 区 域 (定义 了 存放 代码 的 存储 旨 的 起 始 地 
HE) 。 


注意 ， 这 是 一 个 纯 硬 件 完成 的 动作 ! 如 果 此 时 
这 个 位 置 没 有 可 执行 代码 ， 那 么 就 什么 也 不 用 说 
了 ， 计 算 机 残 此 死机 。 上 反之， 如 末 这 个 位 置 有 可 执 
行 代码 ， 计 算 机 将 从 这 里 的 代码 开始 ， 沿 看 后 续 程 
Fe— BMT PA. 


BIOS 程 序 的 入 口 地 址 恰恰 就是 0xFFFF0! that 


征 资 ，BIOS 程 序 的 第 一 条 指令 融 设 计 在 这 个 位 置 。 





[Linus 写 Linux0.11 是 在 1991 年 年 底 。 那 时 ， 很 多 
计算 机 是 从 软盘 启动 的 。 他 为 Linux0.11 设 计 的 系统 
启动 盘 是 软盘 。 

[2] 本 书 中 的 大 部 分 图 都 是 依照 计算 机 实际 运行 时 
的 内 存 真实 状态 ， 严 格 按 比 例 以 600 dpi 分 辩 率 精确 
绘制 的 ， 所 以 有 些 内 存 区 域 因 为 体积 比较 小 ， 在 图 
中 占 的 位 置 也 比较 小 。 请 大 家 阅读 时 仔细 辨认 。 








1.1.2 BIOS 在 内 存 中 加 载 中 断 问 量 表 和 中 
it He SREP 


BIOS 程 序 的 代码 量 并 不 大 ， 却 非常 精深 ， 需 
要 对 整个 计算 机 硬件 体系 结构 非常 熟悉 才能 看 得 明 
日 。 要 想 把 BIOS 是 如 何 运 行 的 讲 清楚 ， 也 得 写 很 厚 
的 一 本 书 ， 这 显然 超出 了 本 书 的 主题 和 范围 。 我 们 
的 主题 是 操作 系统 ， 所 以 只 把 与 启动 操作 系统 有 和 直 
接 天 系 的 部 分 简单 地 讲解 一 下 。 

















BIOS 程 序 被 固化 在 计算 机 主机 板 上 的 一 块 很 
小 的 ROM 心 请 里 。 通 常 不 同 的 主机 板 所 用 的 BIOS 
也 有 上 所 不 同 。 残 局 动 部 分 而 言 ， 各 种 类 型 的 BIOS 的 
基本 原理 大 致 相似 。 为 了 便于 大 家 理解 ， 我 们 选用 
的 BIOS 程 序 只 有 8KB， 上 所 占 地 址 段 为 0xXFE000 一 


0xFFFFF， 如 图 1-1 所 示 。 现 在 CS: IP 已 经 指向 
0xFFFF0 这 个 位 置 了 ， 这 意味 着 BIOS 开 始 启 动 了 。 
随 着 BIOS 程 序 的 执行 ， 屏 硕 上 会 显示 显卡 的 信息 、 
内 存 的 信息 ..….. 说 明 BIOS 程 序 在 检测 显卡 、 内 

存 .….. 这 期 间 ， 有 一 项 对 启动 (boot) 操作 系统 至 
关 重 要 的 工作 ， 那 就 是 BIOS 在 内 存 中 建立 中 断 向 量 
表 和 中 断 服 务 程序 。 








小 贴 士 


ROM (Read Only Memory) : 只 读 存 储 器 。 
现在 通常 用 闪存 芯片 做 ROM。 虽 然 闪存 芯片 在 特定 
的 条 件 下 是 可 写 的 ， 但 在 谈 到 主机 板 上 存储 BIOS 的 
闪存 蕊 片 时 ， 业 内 人 士 把 它 看 做 ROM。ROM 有 一 
个 特性 ， 就 是 断 电 之 后 仍 能 保存 信息 ， 这 一 点 和 硬 


ERA o 

















BIOS 程 序 在 内 存 最 开始 的 位 置 〈《0x00000) 用 
1KB 的 内 存 空 间 (Ox00000~0x003FF) 构建 中 断 向 
量 表 ， 在 紧 换 着 它 的 位 置 用 256 字 节 的 内 存 空间 构 
建 BIOS 数 据 区 (Ox00400~0x004FF) ， 并 在 大 约 
57KB 以 后 的 位 置 《0x0E05B) 加载 了 8 KB 左右 的 
与 中 断 问 量 表 相 应 的 奉 干 中 断 服 务 程 序 。 图 1-2 中 
精确 地 标注 了 这 些 位 置 。 














小 幅 士 


一 个 容易 计算 的 方法 : 0x00100 是 256 字 节 ， 
0x00400 就 是 4x256 字 节 =1024 字 节 ， 也 就 是 1 KB. 
因为 是 从 0x00000 开 始 计 算 ， 所 以 1 KB 的 高地 址 站 
不 是 0x00400， 而 是 0x00400-1， 也 就 是 0x003FF。 


OxFFFFF 
| | ROM BIOS & VGA 
piai 7 BIOS 数 据 区 “““…] [tf Oi Bk PF 
0x00000 Ox003FF 0x00400 Ox004FF 0x0E05B OxOF FFE 


图 1-2 BIOS 在 内 存 中 加 载 中 断 问 量 表 和 中 断 服 
务 程 序 


中 靳 问 量 表 中 有 256 个 中 断 问 量 ， 每 个 中 断 问 


量 占 4 字 节 ， 其 中 两 个 字 节 古 CS 的 值 ， 两 个 字 节 是 


耻 的 值 。 每 个 中 断 问 量 都 指 回 一 个 具体 的 中 断 服务 
程序 。 








下 和 面 将 详细 讲解 后 续 程 序 是 如 何 利 用 这 些 中 时 
服务 程序 把 系统 内 核 程序 从 软盘 加 载 到 内存 的 。 


小 巾 士 


INT (INTerrupt) : 中 断 ， 顾 名 思 义 ， 中 途 打 
断 一 件 正在 进行 中 的 事 。 其 最 初 的 意思 是 : 外 在 的 
事件 打上 断 正 在 执行 的 程序 ， 转 而 执行 处 理 这 个 事件 
的 特定 程序 ， 处 理 结束 后 ， 回 到 被 打 断 的 程序 继续 
执行 。 现 在 ， 可 以 先 将 中 断 理解 为 一 种 技术 手段 ， 
在 这 一 点 上 与 C 语 言 的 函数 调用 有 些 类 似 。 











中 断 对 操作 系统 来 说 是 一 个 意义 重大 的 概念 
后 面 我 们 还 会 深入 讨论 。 


1.2 “加载 操作 系统 内 核 程 序 并 为 你 护 
模式 做 准备 





从 现在 开始 ， 就 要 执行 真正 的 boot 操 作 了 ， 即 
把 软盘 中 的 操作 系统 程序 加 载 至 内 存 。 对 于 Linux 
0.11 操 作 系 统 而 言 ， 计 算 机 将 分 三 批 逐 次 加 载 操作 
系统 的 内 核 代 码 。 第 一 批 由 BIOS 中 断 int 0x19 把 第 
一 而 区 bootsect 的 内 容 加 载 到 内 存 ， 第 二 批 、 第 三 
批 在 bootsect 的 指挥 下 ， 分 别 把 其 后 的 4 个 而 区 和 随 
后 的 240 个 局 区 的 内 容 加 载 至 内 存 。 


1.2.1 ”加 载 第 一 部 分 内 核 代 人 码 一 一 引导 程 
FR (bootsect) 


按照 我 们 使 用 计算 机 的 经 验 ， 如 果 在 开机 的 时 








候 马 上 按 Del 键 ， 屏 幕 上 会 显示 一 个 BIOS 画 面 ， 可 
以 在 里 面 设 置 启动 设备 。 现 在 我 们 基本 上 都 是 将 硬 
BE Ae. Linux 0.11 是 1991 年 设计 的 操作 
系统 ， 那 时 常用 的 局 动 设备 是 软驱 以 及 其 中 的 软 

盘 。 站 在 体系 结构 的 角度 看 ， 从 软盘 局 动 和 从 便 盘 
启动 的 基本 原理 和 机 制 是 类 似 的 。 








经 过 执行 一 系列 BIOS 代 码 之 后 ， 计 算 机 完成 
了 和 目 检 每 操作 (这 些 和 我 们 讲 的 启动 操作 系统 没有 
直接 的 关系 ， 读 者 不 必 关 心 ) 。 由 于 我 们 把 软盘 设 
置 为 启动 设备 ， 计 算 机 硬件 体系 结构 的 设计 与 BIOS 
联手 操作 ， 会 让 CPU 接收 到 一 个 int 0x19 Ft. CPU 
接收 到 这 个 中 断后 ， 会 立即 在 中 断 向 量 表 中 找到 int 
0x19 中 断 癌 量 。 我 们 在 图 1-3 的 左下 方 可 以 看 到 int 
0x19 中 断 问 量 在 内 存 中 所 在 的 准确 位 置 ， 这 个 位 置 


























几乎 紧 换 着 内 存 的 0x00000 位 置 。 





接 下 来 ， 中 断 向 量 把 CPU 指向 0x0E6F2， 这 个 
位 置 就 是 int 0x19 相 对 应 的 中 断 服 务 程序 的 入 口 地 
址 ， 即 图 1-3 所 示 的 “局 动 加 载 服务 程序 ”的 入 口 地 
址 。 这 个 中 断 服务 程序 的 作用 就 是 把 软盘 第 一 而 区 
中 的 程序 (512 B) 加 载 到 内 存 中 的 指定 位 置 。 这 
个 中 断 服 务 程序 的 功能 是 BIOS 事 先 设 计 好 的 ， 代 三 
是 固定 的 ， 与 Linux 操 作 系 统 无 关 。 无 论 Linux 0.11 
的 内 核 是 如 何 设计 的 ， 这 段 BIOS 程 序 所 要 做 的 就 
是 “找到 软盘 ”并 “加 载 第 一 山区 ”， 其 余 的 它 什 么 都 
不 知道 ， 也 不 必 知道 。 























小 幅 士 





中 断 癌 量 表 (Interrupt Vector Table) : 实 模 式 


PROLI Ht Be Bo, Toe AT HP ar St by 
P TARA REP YA PE 





中 断 服 务 (Interrupt Service) 程序 : 通过 中 断 
问 量 表 的 索引 对 中 断 进 行 啊 应 服务 ， 是 一 些 具 有 特 
定 功 能 的 程序 。 








OxFFFFF 
“1BIOS 数 据 区 eh LT TER | 中 断 服 务 程序 
0x00000| Ox003FF Ox00400 Ox004FF 0x0EDSB OxOFFFE 
0x19 中 断 Ox0E6F2 
JA mis FY 


K) 1-3 Me} int 0x19 Wr 


按照 这 个 简单 、“ 生 硬 ” 的 规则 ，int 0x19 中 断 癌 
量 所 指向 的 中 断 服 务 程 序 ， 即 启动 加 载 服 务 程序 ， 
将 软驱 0 号 磁头 对 应 盘面 的 0 磁道 1 扇 区 的 内 容 复制 


至 内 存 0x07C00 处 。 我 们 可 以 在 图 1-4 的 左边 看 到 第 
一 悄 区 加 载 的 具体 位 置 。 


0x00000 OxFFFFF 


[L 


0x07C00 


0 措 面 0 磁道 1 肩 区 
bootsect.s 生 成 的 程序 ) 







vem sansa. . AS 


图 1-4 ERRER — K P Re Pe De BN FE 
的 指定 位 置 


这 个 悄 区 里 的 内 容 就 是 Linux 0.11 的 引导 程 
序 ， 也 就 是 我 们 将 要 讲解 的 bootsect， 其 作用 就 是 
陆续 把 软盘 中 的 操作 系统 程序 载 入 内 存 。 这 样 制作 
HE — ba DOP A a oy eX (boot sector) 。 第 一 





扇 区 程序 的 载 入 ， 标 志 着 Linux 0.11 中 的 代码 即将 
发 挥 作 用 了 。 








这 是 非常 关键 的 动作 ， 从 此 计算 机 开始 和 软盘 
上 的 操作 系统 程序 产生 关联 。 第 一 扇 区 中 的 程序 由 
bootsect.s 中 的 汇编 程序 汇编 而 成 (以 后 简称 
bootsect) 。 这 是 计算 机 自 开 机 以 来 ， 内 存 中 第 一 
次 有 了 Linux 操 作 系 统 自己 的 代码 ， 虽 然 只 是 启动 
代码 。 














至 此 ， 已 经 把 第 一 批 代 码 bootsect 从 软盘 载 入 
计算 机 的 内 存 了 。 下 面 的 工作 束 是 执行 bootsect 把 
软盘 的 第 二 批 、 第 三 批 代 人 码 载 入 内 存 。 


RAE 


注意 : BIOS 程 序 固化 在 主机 板 上 的 ROM 中 ， 











征 根 据 共 体 的 主机 板 而 不 是 根据 具体 的 操作 系统 设 
计 的 。 


理论 上 上， 计算机 可 以 安装 任何 适合 其 安装 的 操 
作 系 统 ， 既 可 以 安装 Windows， 也 可 以 安装 Linux。 
不 难 想象 每 个 操作 系统 的 设计 者 都 可 以 设计 出 一 套 
自己 的 操作 系统 启动 方案 ， 而 操作 系统 和 BIOS 通 第 
是 由 不 同 的 专业 团队 设计 和 开发 的 ， 为 了 能 协同 工 
作 ， 必 须 建 立 操 作 系统 和 BIOS 之 间 的 协调 机 制 。 














与 已 有 的 操作 系统 建立 一 一 对 应 的 协调 机 制 虽 
然 及 烦 ， 但 疝 有 可 能 ， 难 点 在 于 与 未 来 的 操作 系统 
应 该 如 何 建立 协调 机 制 。 现 行 的 方法 是 “两 头 约 


定 ” 和 “定位 识 列 ”。 





对 操作 系统 (这 里 指 Linux 0.11) Te, “A 





定 ” 操 作 系 统 的 设计 者 必须 把 最 开始 执行 的 程序 * 定 
位 ?在 局 动 而 区 《软盘 中 的 0 盘面 0 磁 着 1 局 区 ) ， 其 
余 的 程序 可 以 依照 操作 系统 的 设计 顺序 加 载 在 后 续 
HY a X P o 











对 BIOS 而 言 , “约定 ” 接 到 局 动 操作 系统 的 命 
令 ,， “定位 识别 ”只 从 启动 届 区 把 代码 加 载 到 
0x07C00 (BOOTSEG) 这 个 位 置 (参见 Seabios 
0.6.0/Boot.c 文 件 中 的 boot_disk 函 数 ) 。 至 于 这 个 扇 
区 中 是 人 否 是 局 动 程序 、 是 什么 操作 系统 ， 则 不 同 不 
问 、 一 视 同仁 。 如 果 不 是 启动 代码 ， 只 会 提示 错 
误 ， 其 余 是 用 户 的 责任 ， 与 BIOS 无 关 。 














这 样 构建 协调 机 制 的 好 处 是 站 在 整个 体系 的 高 
度 ， 统 一 设计 、 统 一 安排 ， 简 单 、 有 效 。 只 要 BIOS 
和 操作 系统 的 生产 厂商 开发 的 所 有 系统 版 本 全 部 遵 











循 此 机 制 的 约定 ， 束 可 以 各 目 灵 活 地 设计 出 具有 和 目 
己 特色 的 系统 版 本 。 





1.2.2 “加载 第 二 部 分 内 核 代 码 


setup 


1.bootsect 对 内 存 的 规划 





BIOS 已 经 把 bootsect 也 就 是 引导 程序 载 入 内 存 
了 ， 现 在 它 的 作用 就 是 把 第 二 批 和 第 三 批 程序 陆续 
加 载 到 内 存 中 。 为 了 把 第 二 批 和 第 三 批 程 序 加 载 到 
内 存 中 的 适当 位 置 ，bootsect 首 先 做 的 工作 就 是 规 
划 内 存 。 

















通 负 ， 我 们 是 用 高 级 语言 编写 应 用 程序 的 ， 这 
些 程序 是 在 操作 系统 的 平台 上 运行 的 。 我 们 只 管 写 
高 级 语言 的 代码 、 数 据 。 至 于 这 些 代 码 、 数 据 在 运 
行 的 时 候 放 在 内 存 的 什么 地 方 ， 是 侍 会 相互 窗 疙 ， 
我 们 部 不 用 操心 ， 因 为 操作 系统 和 局 级 语言 的 编 详 
强人 葵 我们 做 了 大 量 的 看 护 工作 ， 确 你 不 会 出 错 。 现 








在 我 们 讨论 的 是 ， 操 作 系 统 本 里 使 用 的 是 汇编 语 

BH» BA mA A IW ae ERIE ee tt PR, K 
有 菲 操 作 系 统 的 设计 者 把 内 存 的 安排 想 清 楚 ， 确 你 
无 论 操 作 系 统 如 何 运 行 ， 都 不 会 出 现代 码 与 代码 、 
数据 与 数据 、 代 码 与 数据 之 间 相 互 获 瘟 的 情况 。 为 
了 更 准确 地 理解 操作 系统 的 运行 机 制 ， 我 们 必须 清 
楚 操 作 系 统 的 设计 者 是 如 何 规划 内 存 的 。 














在 实 模式 状态 下 ， 寻 址 的 最 大 范围 是 1 MB. 
为 了 规划 内 存 ，bootsect 首 先 设 计 了 如 下 代码 : 


/代码 路 径 : boot/bootsect.s 
.globl begtext,begdata,begbss,endtext,enddata,endbss 
.text 


begtext: 


.data 

begdata: 

.bss 

begbss: 

.text 

SETUPLEN=4! nr of setup-sectors 
BOOTSEG=0x07c0! original address of boot-sector 
INITSEG=0x9000! we move boot here-out of the way 
SETUPSEG=0x9020! setup starts here 
SYSSEG=0x1000! system loaded at 0x10000 (65536) . 
ENDSEG=SYSSEG+SYSSIZE! where to stop loading 
! ROOT_DEV: 0x000-same type of floppy as boot. 

! 0x301-first partition on first drive etc 


ROOT _DEV=0x306 








这 些 源 代码 的 作用 就 是 对 后 续 操 作 所 涉及 的 内 

存 位 置 进行 设置 ， 包 括 将 要 加 载 的 setup 程 序 的 而 区 
žr (SETUPLEN) 以 及 被 加 载 到 的 位 置 

(SETUPSEG) ; 局 动 夯 区 被 BIOS 加 载 的 位 置 

(BOOTSEG) 及 将 要 移动 到 的 新 位 置 

(INITSEG) ; 内核 (kernel) 被 加 载 的 位 置 
(SYSSEG) 、 内 核 的 末尾 位 置 CENDSEG) 及 根 
文件 系统 设备 号 (ROOT_DEV) 。 这 些 位 置 在 图 1- 
5 中 都 被 明确 地 标注 了 出 来 。 设 置 这 些 位 置 就 是 为 
了 确保 将 要 载 入 内 存 的 代码 与 已 经 载 入 内 存 的 代码 
及 数据 各 在 其 位 ， 互 不 履 兰 ， 并 且 各 目 有 人 够 用 的 内 
存 空间 。 大 家 在 后 续 的 革 市 会 逐渐 看 到 内 存 规划 的 
意义 和 作用 。 

















0x00000 SETUPSEG=0x9020 OxFFFFF 
IE ES 
ENDSEG=SYSSEG+SYSSIZE 
SYSSEG=0x1000 


BOOTSEG=0x07C0 INITSEG=0x9000 
ROOT_DEV=0x306 


根 文 件 系统 设备 设置 为 
第 二 个 硬盘 第 一 个 分 区 





图 1-5 实 模式 下 的 内 存 使 用 规划 


从 现在 起 ， 我 们 的 头脑 中 要 时 刻 牢 记 这 样 一 个 
概念 : 操作 系统 的 设计 者 是 要 全 面 地 、 人 整体 地 考 丰 
内 存 的 规划 的 。 我 们 会 在 后 续 的 章节 中 不 断 地 了 解 
到 ， 精 心安 排 内 存 是 操作 系统 设计 者 时 时 刻 刻 都 要 











关心 的 事 。 我 们 带 看 这 样 的 观念 继续 了 解 bootsect 
程序 的 执行 。 


2. 复 制 bootsect 





接 下 来 ，bootsect 局 动 程序 将 它 自身 《全 部 的 
512 B 内 容 ) 从 内 存 0x07C00 (BOOTSEG) 处 复制 
至 内 存 0x90000 (INITSEG) 处 。 这 个 动作 和 目标 
位 置 如 网 1-6 所 示 。 


0x00000 INITSEG=0x9000 OxFFFFF 
ERA CEFE. 


teen, 
oe 


/ /bootsect 程 序 


movw 
jmpi go,INITSEG 


: MOV ax,cs 
mov ds,ax 





BOOTSEG=0x07C0 


图 1-6 bootsect 复 制 自身 


执行 这 个 操作 的 代码 Cboot/bootsect.s) 如 下 : 


/代码 路 径 : boot/bootsect.s 
entry start 


start: 


mov ax, #BOOTSEG 


mov ds,ax 


mov ax, #INITSEG 


mov es,ax 


mov cx, #256 


sub si,si 


sub di,di 


ee 





在 这 次 复制 过 程 中 ，ds 〈0x07C0) 和 
si (0x0000) 联合 使 用 ， 构 成 了 源 地 址 0x07C00; 
es (0x9000) 和 di (0x0000) 联合 使 用 ， 构 成 了 日 
的 地 址 0x90000《〈 见 图 1-6) ， 而 mov cx，#256 这 一 
行 循环 控制 量 ， 提 供 了 需要 复制 的 “ 字 ” 数 一 个 字 








为 2 字 市 ，256 个 字 正 好 是 512 字 节 ， 也 就 是 此 一 局 
KAN FBO) 


通过 代码 我 们 还 可 以 看 出 ， 图 1-5 提 到 的 
BOOTSEG 和 INITSEG 现 在 开始 发 挥 作 用 了 。 注 
意 ， 此 时 CPU 的 段 寄 存 器 (CS) 指向 
0x07C0 (BOOTSEG) ， 即 原来 bootsect 程 序 所 在 的 
位 置 。 





RAE 


由 于 “两 头 约定 >? 和 “定位 识别 ”， 所 以 在 开始 时 
bootsect“ 被 迫 ” 加 载 到 0x07C00 位 置 。 现 在 将 自身 移 
至 0x90000 处 ， 说 明 操 作 系 统 开 始 根 据 上 自己 的 需要 
安排 内 存 了 。 





bootsect 复 制 到 新 位 置 完 毕 后 ， 会 执行 下 面 的 


代码 : 


/代码 路 径 : boot/bootsect.s 


movw 

jmpi go, INITSEG 
go: MOV ax,Cs 
mov ds,ax 


从 图 1-6 中 我 们 已 经 了 解 到 当时 CS 的 值 为 
0x07C0， 执 行 完 这 个 跳 转 后 ，CS 值 变 为 
0x9000 (INITSEG) ，IP 的 值 为 从 
0x9000 (INITSEG) 到 go: mov ax,cs 这 一 行 对 应 指 
令 的 偏 移 。 换 句 话说 ， 此 时 CS: IP 指 向 go: mov 


ax,Cs 这 一 行 ， 程 序 从 这 一 行 开 始 往 下 执行 。 图 1-7 
形象 地 表示 了 跳 转 到 go: mov ax,cs 这 一 行 执行 时 CS 
和 IP 的 状态 ， 如 图 右 下 方 所 示 。 





0x00000 INITSEG=0x9000 OxFFFFF 


| | ay 





BOOTSEG=0x07C0 


图 1-7 跳 转 到 go 处 继续 执行 





此 前 的 0x07C00 这 个 位 置 是 根据 “两 头 约 
定 ”? 和 “定位 识别 ”而 确定 的 。 从 现在 起 ， 操 作 系 统 
己 经 不 需要 完全 依赖 BIOS， 可 以 按照 自己 的 意志 把 
目 己 的 代码 安排 在 内 存 中 自己 想 要 的 位 置 。 





AVF 


jmpi go, INITSEG 


gO: MOV ax,Cs 


这 两 行 代码 写 得 很 巧 。 复 制 bootsect 完 成 后 ， 

在 内 存 的 0x07C00 和 0x90000 位 置 有 两 段 完 全 相同 的 
代码 。 请 大 家 注意 ， 复 制 代码 这 件 事 本 吴 也 是 要 靠 
站 令 执 行 的 ， 执 行 指令 的 过 程 就 是 CS 和 IP 不 断 变化 
的 过 程 。 执 行 到 jmpi go,INITSEG 这 行 之 前 ， 代 码 的 
作用 就 是 复制 代码 自身 ;执行 了 jmpi go,INITSEG 之 
后 ， 程 序 就 转 到 执行 0x90000 这 边 的 代码 了 。Linus 
的 设计 意图 是 想 跳 转 之 后 ， 在 新 位 置 接着 执行 后 面 
的 mov ax,cs， 而 不 是 死 循 坏 。jmpi go,INITSEG 与 
go: mov ax,cs 配 合 ， 巧 妙 地 实现 了 “到 新 位 置 后 接 
着 原来 的 执行 序 继续 执行 下 去 ”的 目的 。 











bootsect 复 制 到 了 新 的 地 方 ， 并 且 要 在 新 的 地 


方 继续 执行 。 因 为 代码 的 整体 位 置 发 生 了 变化 ， 所 
以 代码 中 的 各 个 段 也 会 发 生变 化 。 前 面 已 经 改变 了 
CS， 现 在 对 DS、ES、SS 和 SP 进行 调整 。 我 们 看 看 
下 面 的 代码 : 








/代码 路 径 : boot/bootsect.s 

go: MOV ax,Cs 

mov ds,ax 

mov es,ax 

! put stack at Ox9ff00. 

mov ss,ax 

mov sp, #0xFFOO! arbitrary value> >512 

! load the setup-sectors directly after the bootblock. 
! Note that'es'is already set up. 


上 述 代码 的 作用 是 通过 ax， 用 CS 的 值 0x9000 来 
把 数据 段 寄存 器 (CDS) 、 附 加 段 寄存 器 CES) 、 
栈 基 址 寄存 器 〈SS) 设置 成 与 代码 段 寄 存 器 
(CS) 相同 的 位 置 ， 并 将 栈 顶 指针 SP 指 疝 偏 移 地 
址 为 0xFF00 处 。 图 1-8 对 此 做 了 非常 直观 的 描述 





0x00000 SETUPSEG=0x9020 stack (FR, J BR 13H Ky fj) OXFFFFF 


ROM BIOS & VGA 
9 
| 一 Eco | 


INITSEG=0x9000 
En 


图 1-8 调整 各 个 段 寄存 器 值 





Pa ESTP 2a — BS BRE AE RIN 28 FF ot HY 
罩 。SS 和 SP 联合 使 用 ， 丈 构成 了 栈 数据 在 内 存 中 的 
位 置 值 。 对 这 两 个 寄存 占 的 设置 为 后 面 程序 的 栈 操 


作 〈( 如 push、pop 等 ) 打下 了 基础 。 


现在 可 以 观察 一 下 bootsect 中 的 程序 ， 在 执行 
设置 SS 和 SP 的 代码 之 前 ， 没 有 出 现 过 栈 操 作 指 令 ， 
而 在 此 之 后 就 陆续 使 用 。 这 里 对 SS 和 SP 进行 的 设置 
是 分 水 岭 。 它 标志 着 从 现在 开始 ， 程 序 可 以 执行 一 
些 更 为 复杂 的 数据 运算 类 指令 了 。 











栈 操作 是 有 方向 的 。 图 1-8 中 标识 了 压 栈 的 方 
向 ， 注 意 是 由 高 地 址 到 低地 址 的 方向 。 





小 贴 士 





DS/ES/FS/GS/SS: 这 些 段 寄存 器 存在 于 CPU 
H, HRSS (Stack Segment) 指向 栈 段 ， 此 区 域 将 
按 栈 机 制 进行 管理 。 


SP (Stack Pointer) : 栈 顶 指针 寄存 器 ， 指 辐 
栈 段 的 当前 栈 顶 。 


注意 : 很 多 计算 机 书 上 使 用 “堆栈 ”这 个 词 。 本 
书 用 堆 、 栈 表示 两 个 概念 。 栈 表示 stack， 特 指 在 C 
语言 程序 的 运行 时 结构 中 ， 以 “后 进 先 出 ”机 制 运作 
的 内 存 空 间 ; 堆 表 示 heap， 特 指 用 C 语 言 库 函 数 
malloc 创 建 、free 释 放 的 动态 内 存 空间 。 











至 此 ，bootsect 的 第 一 步 操 作 ， 即 规划 内 存 并 
把 上 自身 从 0x07C00 的 位 置 复 制 到 0x90000 的 位 置 的 动 
作 已 经 完成 了 。 


3. 将 setup 程 序 加 载 到 内 存 中 





下 面 ，bootsect 程 序 要 执行 它 的 第 二 步 工 作 : 
将 setup 程 序 加 载 到 内 存 中 。 


加 载 setup 这 个 程序 ， 要 借助 BIOS 提 供 的 int 
0x13 中 断 向 量 所 指向 的 中 断 服务 程序 〈 也 就 是 磁盘 
服务 程序 ) 来 完成 。 图 1-9 标 注 了 int 0x13 中 断 向 量 
的 位 置 以 及 这 个 中 断 癌 量 所 指 疝 的 磁盘 服务 程序 的 
入 口 位 置 。 










0x00000 OxFFFFF 
' | | |_ROM BIOS & VGA | 
[sa bites BlOs 数 据 区 [pinta 
0x00000, Ox003FF 0x00400 Ox004FF Ox Lh OxOF FFE 


| OxOE6FE 


patihing NTT 


图 1-9 调用 int 0x13 Wr 
这 个 中 断 服 务 程序 的 执行 过 程 与 图 1-3 和 图 1-4 


中 讲解 过 的 int 0x19 中 断 向 量 所 指向 的 启动 加 载 服 
务 程序 不 同 。 


int 0x19 中 断 间 量 所 指 回 的 局 动 加 载 服 务 程序 
是 BIOS 执 行 的 ， 而 int 0x13 的 中 断 服 务 程序 是 Linux 
操作 系统 上 自 丑 的 启动 代码 bootsect 执 行 的 。 





int 0x19 的 中 断 服务 程序 只 负责 把 软盘 的 第 一 
扇 区 的 代码 加 载 到 0x07C00 位 置 ， 而 int 0x13 的 中 断 
服务 程序 则 不 然 ， 它 可 以 根据 设计 者 的 意图 ， 把 指 
定局 区 的 代码 加 载 到 内 存 的 指定 位 置 。 


针对 服务 程序 的 这 个 特性 ， 使 用 int 0x13 ih 
时 ， 就 要 事先 将 指定 的 虱 区 、 加 载 的 内 存 位 置 等 信 
恩人 传递 给 服务 程序 ， 即 传 参 。 执 行 代 码 如 下 : 


/代码 路 径 : boot/bootsect.s 
eee ! 注意 : SETUPLEN 为 4 
load _setup: 


mov dx, #0x0000! drive 0, head 0 


mov cx, #0x0002! sector 2, track 0 

mov bx, #0x0200! address=512, in INITSEG 

mov ax, #0x0200+SETUPLEN! service 2, nr of sectors 
int 0x13! read it 

jnc ok_load_setup! ok-continue 

mov dx, #0x0000 

mov ax, #0x0000! reset the diskette 

int 0x13 


j load_setup 


ee 





从 代码 开始 处 的 4 个 mov 指 令 可 以 看 出 ， 系 统 
给 BIOS 中 靳 服务 程序 传 参 是 通过 几 个 通用 寄存 蕴 实 
现 的。 这 是 汇编 程序 的 常用 方法 ， 与 C 语 言 的 函数 
调用 形式 有 很 大 不 同 。 





参数 传递 完毕 后 ， 执 行 int 0x13 指 令 ， 产 生 





0x13 中 断 ， 通 过 中 断 向 量 表 找到 这 个 中 断 服务 程 
序 ， 将 软盘 第 二 书 区 开始 的 4 个 鹿 区 ， 即 setup.s 对 应 
的 程序 加 载 至 内 存 的 SETUPSEG (0x90200) 处 。 
根据 对 图 1-5 的 讲解 ， 复 制 后 的 bootsect 的 起 始 位 置 
是 0x90000， 占 用 512 字 节 的 内 存 空间 。 不 难看 出 
0x90200 紧 摊 着 bootsect 的 尾 问 ， 所 以 bootsect 和 setup 
是 连 在 一 起 的 。 图 1-10 表 示 了 软盘 中 所 要 加 载 的 局 
区 位 置 和 忆 区 数 ， 以 及 载 入 内 存 的 目标 位 置 和 占用 


空间 。 





现在 ， 操 作 系统 已 经 从 软盘 中 加 载 了 5 个 刷 区 
的 代码 。 等 bootsect 执 行 完毕 后 ，setup 这 个 程序 就 


要 开始 工作 了 。 


0x00000 SETUPSEG=0x9020 OxFFFFF 


| 
ee | | ROM BIOS & VGA 


| 


0x07C00 


0 盘面 0 磁道 2~ 5 扇 区 
{setup.s 生 成 的 程序 ) 







INITSEG=0x9000 


vena ats. . | 


图 1-10 加 载 setup 程 序 


注意 ， 图 1-8 中 SS: SP 指向 的 位 置 为 0x9FF00， 
这 与 setup 程 序 的 起 始 位 置 0x90200 还 有 很 大 的 距 
离 ， 即 便 setup 加 载 进来 后 ， 系 统 仍然 有 足够 的 内 存 
空间 用 来 执行 数据 压 栈 操作 ;， 而且， 在 局 动 部 分 ， 
要 压 栈 的 数据 毕竟 也 是 有 限 的 。 大 家 在 后 续 的 章节 
中 会 逐渐 体会 到 ， 设 计 者 在 此 是 进行 过 精密 测算 
的 。 





1.2.3 加载 第 三 部 分 内 核 代 但 system 模 


块 
第 二 批 代码 己 经 载 入 内 存 ， 现 在 要 加 载 第 三 批 


代码 。 仍 然 使 用 BIOS 提 供 的 int 0x13 中 断 ， 如 图 1- 
11 所 示 ， 方 法 与 图 1-9 所 示 的 方法 基本 相同 。 


0x00000 OxFFFFF 
| | | ROM BIOS & VGA 


aa Ee O SS 
Wee = T WOM carrion, 


0x00000 Ox003FF 
0x13 中 断 








图 1-11 再 次 调用 int 0x13 中 晰 


接 下 来 ，bootsect 程 序 要 执行 第 三 批 程序 的 载 
入 工作 ， 即 将 系统 模块 载 入 内 存 。 


这 次 载 入 从 底层 技术 上 看 ， 与 前 面 的 setup 程 序 
的 载 入 没有 本 质 的 区 别 。 比 较 突 出 的 特点 是 这 次 加 
载 的 面 区 数 是 240 个 ， 足 足 是 之 前 的 4 个 而 区 的 60 
音 ， 所 需 时 间 也 是 几 十 倍 。 为 了 防止 加 载 期 间 用 户 
误 认 为 是 机 器 故障 而 执行 不 适当 的 操作 ，Linus 在 此 
设计 了 显示 一 行 屏幕 信息 “Loading system......” 以 提 
示 用 户 计算 机 此 时 正在 加 载 系 统 。 值 得 注意 的 是 ， 
此 时 操作 系统 的 main 函 数 还 没有 开始 执行 ， 在 屏幕 
上 显示 一 行 字符 串 远 没有 用 C 语 言 写 一 句 
printf ("Loading system......\n") 调用 那么 容易 ， 所 
有 工作 都 要 靠 一 行 一 行 的 汇编 代码 来 实现 。 从 体系 
结构 的 角度 看 ， 显 示 器 也 是 一 个 外 设 ， 所 以 还 要 用 
到 其 他 BIOS 中 断 。 这 些 代码 比较 多 ， 对 理解 操作 系 
统 的 启动 原理 没有 特别 直接 的 帮助 ， 只 要 知道 大 意 
就 可 以 了 。 我 们 真正 需要 掌握 的 是 ，bootsect 借 着 


























BIOS 中 上 断 int 0x13, 42407 b X MY system te be ON aX 
进 内 存 。 加 载 工 作 主 要 是 由 bootsect 调 用 read_it 子 程 
序 完 成 的 。 这 个 子 程序 将 软盘 第 六 届 区 开始 的 约 
240 个 而 区 的 system 模 块 加 载 至 内 存 的 

SYSSEG (0x10000) 处 往 后 的 120 KB 空间 中 。 图 1- 
12 对 system 模 块 所 占用 的 内 存 空间 给 出 了 形象 的 说 
明 。 


0x00000 OxFFFFF 
| | 
| | O ROM BIOS & VGA | 
0 得 而 0 磋 道 6 肩 区 开始 的 大 约 240 个 肩 区 
SYSSEG=0x1000 {系统 内 核 程序 ，kernel) 





EE TTIA 


图 1-12 加载 system 模 块 


He RIN TA ERE ik Hr bA BET E a 
进行 更 多 的 监控 ， 对 读 盘 结果 不 断 地 进行 检测 。 因 
此 read_it 后 续 的 调用 步骤 比较 多 一 些 。 但 读 盘 工 作 


最 终 是 由 0x13 对 应 的 中 断 服 务 程序 完成 的 。 








到 此 为 止 ， 第 三 批 程序 已 经 加 载 完毕 ， 整 个 操 
作 系 统 的 代码 已 全 部 加 载 至 内 存 。bootsect 的 主体 
工作 已 经 做 完了 ， 还 有 一 点 小 事 ， 就 是 要 再 次 确定 
一 下 根 设备 号 ， 如 图 1-13 所 示 。 


0x00000 OxFFFFF 


| ROM BIOS & VGA 


Ox1A964 oo 






Mis WA: 1.2MBINARM A) | 根 设备 设置 为 :1.44 MBSA ESA 
( /dev/at0 (2,8) ) ( /dev/PSO (2,28) ) 


ROOT DEV = 0x0208 ROOT_DEV == 0x021C 


1-BRAR 
主 设备 号 = 2 2-Chin 


次 设备 号 = type*4+nr +3-DRWR 
212 MB) “70 44MB) 





A 1-13 确认 根 设备 号 


小 巾 士 


根 文件 系统 设备 (Root Device) : Linux 0.11 
使 用 Minix 操 作 系 统 的 文件 系统 管理 方式 ， 要 求 系 
统 必须 存在 一 个 根 文 件 系统 ， 其 他 文件 系统 挂 接 其 
上 ， 而 不 是 同等 地 位 。Linux 0.11 没 有 提供 在 设备 


上 建立 文件 系统 的 工具 ， 故 必须 在 一 个 正在 运行 的 
系统 上 利用 工具 〈 类 似 FDISK 和 Format) 做 出 一 个 
文件 系统 并 加 载 至 本 机 。 因 此 Linux 0.11 的 启动 需 
要 两 部 分 数据 ， 即 系统 内 核 镜 像 和 根 文件 系统 。 








注意 : 这 里 的 文件 系统 指 的 不 是 操作 系统 内 核 
中 的 文件 系统 代码 ， 而 是 有 配套 的 文件 系统 格式 的 
设备 ， 如 一 张 格 却 化 好 的 软盘 





因为 本 书 假设 所 用 的 计算 机 安 猴 了 一 个 软盘 驱 
动 器 、 一 个 人 硬盘 驱动 器 ， 在 内 存 中 开辟 了 2 MB 的 
空间 作为 虚拟 盘 〈 见 第 2 章 的 main 函 数 ) ， 并 在 
BIOS 中 设置 软盘 驱动 响 为 司 动 熏 ， 所 以 ， 经 过 一 系 
列 检测 ， 确 认 计算 机 中 实际 安装 的 软盘 驱动 器 为 根 
设备 ， 并 将 信息 写 入 机 器 系统 数据 。 第 2 章 中 main 
函数 一 开始 束 用 机 器 系统 数据 中 的 这 个 信息 设置 根 





设备 ， 并 为 “ 根 文 件 系统 加 载 ?页 定 


执行 代码 如 下 : 





/代码 路 径 : boot/bootsect.s 

Seg CS 

mov ax,root_dev 

cmp ax, #0 

jne root_defined 

seg CS 

mov bx,sectors 

mov ax, #0x0208! /dev/ps0-1.2Mb 
cmp bx, #15 

je root_defined 

mov ax, #0x021c! /dev/PSO-1.44Mb 


cmp bx, #18 


je root_defined 
undef _ root: 


jmp undef_root 





root defined: ! 根据 前 面 检测 计算 机 中 实际 安装 的 驱动 右 信 息 ， 
确认 根 设备 


Seg CS 
mov root_dev,ax 


org 508! 注意 : 508 即 为 0x1FC， 当 前 段 是 0x9000， 所 以 地 址 是 
0x901FC 


root _dev: 
.Word ROOT_DEV 
boot _ flag: 


.Word O0OxAA55 





现在 ，bootsect 程 序 的 任务 都 已 经 完成 ! 


下 面 要 通过 执行 “mpi 0, SETUPSEG”iX 47 iG 
句 跳 转 至 0x90200 处 ， 就 是 前 面 讲 过 的 第 二 批 程序 
setup 程 序 加 载 的 位 置 。CS: IP 指 向 setup 程 序 
的 第 一 条 指令 ， 意 味 着 由 setup 程 序 接着 bootsect 程 
序 继续 执行 。 图 1-14 形 象 地 描述 了 跳 转 到 setup 程 序 
后 的 起 始 状态 ， 对 应 的 代码 如 下 : 








/代码 路 径 : boot/bootsect.s 


0x00000 stack (RR, KERTI 77 É) OxFFFFF 
| | 0 
> |0x9FFOO 
加 


SETUPSEG=0x9020 





INITSEG=0x9000 


图 1-14 setup 开 始 执行 


setup 程 序 现在 开始 执行 。 它 做 的 第 一 件 事情 就 
是 利用 BIOS 提 供 的 中 断 服务 程序 从 设备 上 提取 内 核 
运行 所 需 的 机 器 系统 数据 ， 其 中 包括 光标 位 置 、 显 
示 页 面 等 数据 ， 并 分 别 从 中 断 问 量 0x41 和 0x46 问 量 
值 所 指 的 内 存 地 址 处 获取 硬盘 参数 表 1、 人 硬盘 参数 
表 2， 把 它们 存放 在 0x9000: 0x0080 和 0x9000: 





0x0090 人 处 。 


这 些 机 器 系统 数据 被 加 载 到 内 存 的 0x90000 一 
0x901FC 人 位置。 图 1-15 标 出 了 其 内 容 及 准确 的 位 
置 。 这 些 数据 将 在 以 后 main 函 数 执行 时 发 挥 重 要 作 
用 。 


提取 机 器 系统 数据 的 具体 代码 如 下 : 


/代码 路 径 : boot/setup.s 

mov ax, #INITSEG! this is done in bootsect already,but...... 
mov ds,ax 

mov ah, #0x03! read cursor pos 

xor bh,bh 

int 0x10! save it in known place,con_init fetches 
mov[0], dx! it from 0x90000. 

! Get memory size (extended mem,kB ) 

mov ah, #0x88 

int Ox15 

mov[2], ax 

mov cx, #0x10 


mov ax, #0x00 


这 段 代码 大 约 70 行 ， 由 于 篇 幅 限 制 ， 我 们 省 略 
了 大 部 分 代码 。 


0x00000 stack (HE, Be RTI Jy fij) OxFFFFF 








图 1-15 Naka AB 


TER, BIOSHEMM Plas At Wa A oh 
bootsect 程 序 所 在 部 分 区 域 。 这 些 数据 由 于 是 要 留 
用 的 ， 所 以 在 它们 失去 使 用 价值 之 前 ， 一 定 不 能 被 
覆盖 掉 。 





RAVE 


机 器 系统 数据 所 占 的 内 存 空间 为 0x90000 一 
0x901FD， 共 510 字 节 ， 即 原来 bootsect 只 有 2 字 节 未 
被 覆盖 。 可 见 ， 操 作 系 统 对 内 存 的 使 用 是 非常 严谨 
的 。 在 空间 上 ， 操 作 系统 对 内 存 严 格 按 需 使 用 ， 要 
加 载 的 数据 刚好 占用 一 个 扇 区 的 位 置 〈《 只 差 2 字 
节 ) ， 而 启动 扇 区 bootsect 又 恰好 是 一 个 扇 区 ， 内 
存 的 使 用 规划 像 一 个 账本 ， 前 后 对 应 ; 在 时 间 上 ， 
使 用 完毕 的 空间 立即 挪 作 他 用 ， 局 动 届 区 bootsect 
程序 刚 结束 其 使 命 ， 执 行 sSetup 时 立刻 就 将 其 用 数据 
覆盖 ， 内 存 的 使 用 率 极 高 。 虽 然 这 与 当时 的 硬件 条 
件 有 限 不 无 关系 ， 但 这 种 严 齐 的 内 存 规划 风格 是 很 
值得 学 习 的 。 
































到 此 为 止 ， 操作 系 统 内 核 程 序 的 加 载 工 作 已 经 
完成 。 接 下 来 的 操作 对 Linux 0.11 而 言 具有 战略 意 





义 。 系 统 通过 已 经 加 载 到 内 存 中 的 代码 ， 将 实现 从 
实 模 式 到 你 护 模式 的 转变 ， 使 Linux 0.11 真 正成 
为 “现代 ”操作 系统 。 


1.3 ”开始 同 32 位 模式 转变 ， 为 main 丁 
数 的 调用 做 准备 


接 下 来 ， 操 作 系 统 要 使 计算 机 在 32 位 保护 模式 
下 工作 。 这 期 间 要 做 大 量 的 重建 工作 ， 并 且 持 续 工 
作 到 操作 系统 的 main 函 数 的 执行 过 程 中 。 在 本 市 
中 ， 操 作 系 统 执行 的 操作 包括 打开 32 位 的 寻 址 空 
间 、 打 开 你 护 模 式 、 建 并 保护 模式 下 的 中 断 啊 应 机 
制 等 与 保护 模式 配套 的 相关 工作 、 建 立 内 存 的 分 页 
机 制 ， 最 后 做 好 调用 main 函 数 的 准备 。 





1.3.1 关中 断 并 将 system 移 动 到 内 存 地 址 起 
始 位 置 0x00000 


如 图 1-16 所 示 ， 这 个 准备 工作 先 要 关闭 中 断 ， 


即将 CPU 的 标志 寄存 器 CEFLAGS) 中 的 中 断 人 允许 
标志 CIF) 置 0。 这 意味 着 ， 程 序 在 接 下 来 的 执行 

过 程 中 ， 无 论 是 否 发 生 中 断 ， 系 统 都 不 再 对 此 中 断 
进行 响应 ， 直 到 下 一 章 要 讲解 的 main 函 数 中 能 够 适 
应 保护 模式 的 中 断 服 务 体系 被 重建 完毕 才 会 打开 中 
晰 ， 而 那 时 候 响 应 中 断 的 服务 程序 将 不 再 是 BIOS 提 
供 的 中 断 服务 程序 ， 取 而 代 之 的 是 由 系统 自身 提供 
的 中 断 服务 程序 。 代 码 如 下 : 





/代码 路 径 : boot/setup.s 








PIF T 1 
EFLAGS || 
(标志 寄存 器 ) 0 


图 1-16 AP 
小 贴 士 


EFLAGS: 标志 寄存 硕 ， 存 在 于 CPU 中 ，32 
位 ， 包 含 一 组 状态 标志 、 控 制 标志 及 系统 标志 。 如 
第 0 位 的 CF (Carry Flag) 为 CPU 计算 用 到 的 进位 标 
志 ， 及 图 1-16 所 示 的 关中 断 操 作 涉及 的 第 9 位 
IF (Interrupt Flag) 中 断 允 许 标志 。 


RAVE 





PT Celi) MAPA Cti) 操作 将 在 操作 系 
统 代码 中 频 索 出 现 ， 其 意义 深刻 。 悍 慢 的 你 会 发 


现 ，cli、sti 总 是 在 一 个 完整 操作 过 程 的 两 头 出 现 ， 
目的 是 避免 中 断 在 此 期 间 的 介入 。 接 下 来 的 代码 将 
为 操作 系统 进入 保护 模式 做 准备 。 此 处 即将 进行 实 
模式 下 中 断 问 量 表 和 保护 模式 下 中 断 摘 述 符 表 
ADT) 的 交接 工作 。 试 想 ， 如 果 没 有 cli， 又 恰好 
发 生 中 断 ， 如 用 户 不 小 心 碰 了 一 下 键盘 ， 中 断 就 要 
切 进 来 ， 就 不 得 不 面 对 实 模式 的 中 断 机 制 已 经 废 
除 、 保 护 模 式 的 中 断 机 制 疝 未 完成 的 人 矿 众 局 面 ， 结 
果 就 是 系统 骨 溃 。cli、sti 保 证 了 这 个 过 程 中 ，IDT 
能 够 完整 创建 ， 以 避免 不 可 预料 中 断 的 进入 造成 
IDT 创 建 不 完整 或 新 老 中 断 机 制 混用 。 甚 至 可 以 理 
解 为 ci、sti 是 为 了 保护 一 个 新 的 计算 机 生命 的 完整 
而 创建 的 。 




















下 面 ，setup 程 友 做 了 一 个 影响 深远 的 动作 : 将 





位 于 0x10000 的 内 核 程序 复制 至 内 存 地 址 起 始 位 置 
0x00000 处 ! 代码 如 下 : 





/代码 路 径 : boot/setup.s 
do _move: 

mov es,ax! destination segment 
add ax, #0x1000 

cmp ax, #0x9000 

jz end_move 

mov ds,ax! source segment 
sub di,di 

sub si,si 

mov cx, #0x8000 

rep 


MOVSW 


jmp do_move 


图 1-17 准 确 标 识 了 复制 操作 系统 内 核 代码 的 源 
位 置 和 目标 位 置 及 复制 动作 的 方 癌 。 


0x00000 OxFFFFF 


| | / 禁止 
T 
'SYSSEG=0x1000 


0x00000 ; OxFFFFF 
| 


| (Bese 
iw 


ES DS 
*DS 和 ES 配合 完成 内 核 移 位 的 复制 动作 


图 1-17 复制 System 模块 至 内 存 起 始 处 


回顾 一 下 图 1-2 的 内 容 ，0x00000 这 个 位 置 原来 
存放 着 由 BIOS 建 立 的 中 断 向 量 表 及 BIOS 数 据 区 。 
这 个 复制 动作 将 BIOS 中 断 向 量 表 和 BIOS 数 据 区 完 
全 履 盖 ， 使 它们 不 复 存 在 。 直 到 新 的 中 断 服务 体系 


构建 完毕 之 前 ， 操 作 系 统 不 再 具备 啊 应 并 处 理 中 断 
的 能 力 。 现 在 ， 我 们 开始 体会 到 图 1-16 中 的 关中 断 
操作 的 意义 。 








RAE 
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1) 废除 BIOS 的 中 断 癌 量 表 ， 等 同 于 废除 了 
BIOS 提 供 的 实 模式 下 的 中 断 服 务 程 序 。 


2) 收回 刚刚 结束 使 用 寿命 的 程序 所 占 内 存 空 


3) 让 内 核 代码 占据 内 存 物 理 地 址 最 开始 的 、 
天 然 的 、 有 利 的 位 置 。 


“破旧 立新 ”这 个 成 语 用 在 这 里 特别 贴切 。 


system 模 块 复制 到 0x00000 这 个 动作 ， 废 除了 BIOS 
的 中 断 向 量 表 ， 也 就 是 废除 了 16 位 的 中 断 机 制 。 操 
作 系 统 是 不 能 没有 中 断 的 ， 对 外 设 的 使 用 、 系 统 调 
用 、 进 程 调度 都 离 不 开 中 断 。Linux 操 作 系统 是 32 
位 的 现代 操作 系统 ，16 位 的 中 断 机 制 对 32 位 的 操作 
系统 而 言 ， 显 然 是 不 合适 的 ， 这 也 是 废除 16 位 中 断 
机 制 的 根本 原因 。 为 了 建立 32 位 的 操作 系统 ， 我 们 
不 但 要 “破旧 ”还 要 “立新 ”一 一 建立 新 的 中 断 机 
制 |。 











1.3.2 WCER PDT HNID RE Ze AE Je HIN FF AE 


setup 程 序 继续 为 保护 模式 做 准备 。 此 时 要 通过 
setup 程 序 自 吴 提供 的 数据 信息 对 中 断 朱 述 符 表 寄存 
ax CIDTR) 和 全 局 描述 符 表 寄存 右 〈GDTR ) 进行 
初始 化 设置 。 


小 巾 士 


GDT (Global Descriptor Table， 全 局 描述 符 
K) ， 在 系统 中 唯一 的 存放 段 寄 存 器 内 容 《〈 段 描述 
符 ) 的 数组 ， 配 合 程序 进行 保护 模式 下 的 段 寻 址 。 
它 在 操作 系统 的 进程 切换 中 具有 重要 意义 ， 可 理解 
为 所 有 进程 的 总 目录 表 ， 其 中 存放 每 一 个 任务 
(task) 局 部 描述 符 表 (LDT,Local Descriptor 
Table) 地址 和 任务 状态 段 CTSS,Task Structure 





Segment) 地 址 ， 完 成 进程 中 各 段 的 寻 址 、 现 场 你 
护 与 现场 恢复 。 


GDTR (Global Descriptor Table Register,GDT 
基地 址 寄存 器 ) ，GDT 可 以 存放 在 内 存 的 任何 位 
置 。 当 程序 通过 段 寄 存 器 引用 一 个 段 描述 符 时 ， 需 
要 取得 GDT 的 入 口 ，GDTR 标 识 的 即 为 此 入 口 。 在 
操作 系统 对 GDT 的 初始 化 完成 后 ， 可 以 用 
LGDT (Load GDT) 指令 将 GDT 基 地 址 加 载 至 





GDTR. 


IDT (Interrupt Descriptor Table， 中 断 描述 符 
表 ) ， 保 存 保护 模式 下 所 有 中 断 服务 程序 的 入 口 地 
HE, KAFRA PR AY FFT AD Be Ze o 





IDTR (Interrupt Descriptor Table Register, IDT 


基地 址 寄存 器 ) ， 保 存 IDT 的 起 始 地 址 。 


内 核实 现代 码 如 下 : 





/代码 路 径 : boot/setup.s 

end _move: 

mov ax, #SETUPSEG! right,forgot this at first.didn't work: -) 
mov ds,ax 

lidt idt_48! load idt with 0, 0 

Igdt gdt_48! load gdt with whatever appropriate 

gdt: 

.word 0, 0, 0, 0! dummy 

.word OxO7FF! 8Mb-limit=2047 (2048*4096=8Mb ) 

.Word 0x0000! base address=0 


.word 0x9A00! code read/exec 


.Word 0x00CO! granularity=4096, 386 

.word 0x07FF! 8Mb-limit=2047 (2048*4096=8Mb ) 
.Word 0x0000! base address=0 

.word 0x9200! data read/write 

.Word 0x00CO! granularity=4096, 386 

idt _48: 

.word 0! idt limit=0 

.word 0, 0! idt base=0L 

gdt _48: 

.word 0x800! gdt limit=2048, 256 GDT entries 


.word 512+gdt, 0x9! gdt base=0X9xxxx 





这 些 代码 设置 所 需要 的 数据 分 别 在 idt_48 和 
gdt_48 所 对 应 的 标号 处 ， 它 们 和 寄存 器 的 对 应 方式 
如 图 1-18 所 示 。 


0x00000 SETUPSEG=0x9020 OxFFFFF 


ROM BIOS & VGA p 


INITSEG=0x9000 |”, 





0] 0 |IDTR 
基地 址 MEK (中 断 描述 
符 表 寄存 器 ) 








0x90200+ DTR 
0x9 [5120 1 loxto0 (全 局 描述 gat (gdt 内 容 ) 
Hoh: è BK FAR AFF AB) 








图 1-18 设置 GDTR 和 IDTR 
点 评 


32 位 的 中 断 机 制 和 16 位 的 中 断 机 制 ， 在 原理 上 
有 比较 大 的 差别 。 最 明显 的 是 16 位 的 中 断 机 制 用 的 
是 中 断 问 量 表 ， 中 断 向 量 表 的 起 始 位 置 在 0x00000 
处 ， 这 个 位 置 是 固定 的 ，32 位 的 中 断 机 制 用 的 是 中 
断 描 述 符 表 CDT) ， 位 置 是 不 固定 的 ， 可 以 由 操 
作 系统 的 设计 者 根据 设计 要 求 灵 活 安排 ， 由 IDTR 
来 锁定 其 位 置 。 


GDT 是 保护 模式 下 管理 段 描 述 符 的 数据 结构 ， 
对 操作 系统 目 号 的 运行 以 及 官 理 、 调 度 进程 有 和 草 大 
意义 ， 后 面 的 章节 会 有 详细 讲解 。 





因为 ， 此 时 此 刻 内 核 尚 未 真正 运行 起 来 ， 还 没 
有 进程 ， 所 以 现在 创建 的 GDT 第 一 项 为 空 ， 第 二 项 
为 内 核 代 码 段 描 述 符 ， 第 三 项 为 内 核 数据 段 描述 


tt, ARUBA 
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前 已 关中 断 ， 无 需 调 用 中 断 服务 程序 。 此 处 反映 的 
是 数据 “ 够 用 即 得 ”的 思想 。 


创建 这 两 个 表 的 过 程 可 理解 为 是 分 两 步 进 行 
的 : 


1) 在 设计 内 核 代码 时 ， 己 经 将 两 个 表 写 好 ， 


并 且 把 需要 的 数据 也 写 好 。 





2) 将 专用 寄存 器 (IDTR、GDTR) 指向 表 。 





此 处 的 数据 区 域 是 在 内 核 源 代码 中 设 定 、 编 译 
并 直接 加 载 至 内 存 形成 的 一 块 数据 区 域 。 专 用 寄存 
器 的 指向 由 程序 中 的 lidt 和 lgdt 指 令 完成 ， 具 体操 作 
见 图 1-18。 








值得 一 所 的 是 ， 在 内 存 中 做 出 数据 的 方法 有 两 
PP: 


1) RUDRA Pee OB “A 
住 > 这 块 内 存 区 域 ， 使 之 能 被 找到 ; 





2) 由 代码 做 出 数据 ， 如 用 push 代 码 压 栈 , “做 
出 ”数据 。 








此 处 采用 的 是 第 一 种 方法 。 


1.3.3 ”打开 A20， 实 现 32 位 寻 址 


下 面 是 标志 性 的 动作 一 一 打开 A20! 


打开 A20， 意 味 着 CPU 可 以 进行 32 位 寻 址 ， 最 
大 寻 址 空间 为 4GB。 注 意图 1-19 中 内 存 条 范围 的 变 
化 : 从 5 个 F 扩 展 到 8 个 F， 即 0xFFFFFFFF 一 4 


GB. 


打开 A20 地 址 线 后 内 存 寻 址 空间 的 变化 


OxFFFFFFFF 


OxFFFFFF 
OxFFFFF 





图 1-19 打开 A20 


现在 看 来 ，Linux 0.11 还 显得 有 些 稚嫩 ， 最 大 
只 能 支持 16 MB 的 物理 内 存 ， 但 是 其 线性 寻 址 空间 
己 经 是 不 折 不 扣 的 4 GB. 





打开 A20 的 代码 (boot/setup.s〉 如 下 : 


/代码 路 径 : boot/setup.s 


ee 


! that was painless,now we enable A20 
call empty_8042 

mov al, #0xD1! command write 
out#0x64, al 

call empty_8042 

moval, #0xDF! A20 on 

out#0x60, al 


call empty_8042 


ee 


实 模式 下 CPU 寻 址 范围 为 0 一 0xFFFFF， 共 1 
MB 寻 址 空间 ， 需 要 0 一 19 号 共 20 根 地 址 线 。 进 入 保 
护 模式 后 ， 将 使 用 32 位 寻 址 模式 ， 即 采用 32 根 地 址 
线 进行 寻 址 ， 第 21 根 “A20) 至 第 32 根 地 址 线 的 选 


通 控 制 将 意味 看 寻 址 模式 的 切换 。 


实 模式 下 ， 当 程序 寻 址 超过 0xFFFFF 时 ，CPU 
将 “ 回 深 ” 至 内 存 地 址 起 始 处 寻 址 (注意 ， 在 只 有 20 
根 地 址 线 的 条 件 下 ，0xFFFFF+1=0x00000， 最 高 位 
洪 出 )。 例 如 ， 系 统 的 段 寄存 器 《如 CS) 的 最 大 允 
许 地 址 为 0xFFFF， 指 令 指针 (IP〉 的 最 大 允许 段 内 
偏 移 也 为 0xXFFFF， 两 者 确定 的 最 大 绝对 地 址 为 
0x10FFEF， 这 将 意味 着 程序 中 可 产生 的 实 模 式 下 的 
寻 址 范围 比 1 MB 多 出 将 近 64 KB (一 些 特殊 寻 址 要 
求 的 程序 就 利用 了 这 个 特点 ) 。 这 样 ， 此 处 对 A20 
地 址 线 的 启用 相当 于 关闭 CPU 在 实 模式 下 寻 址 
的 “ 回 滚 ? 机 制 。 在 后 续 代码 中 也 将 看 到 利用 此 特点 
来 验证 A20 地 址 线 是 否 确 实 已 经 打开 。 











1.3.4 ”为 保护 模式 下 执行 head.s 做 准备 

为 了 建立 保护 模式 下 的 中 断 机 制 ，setup 程 序 将 
对 可 编程 中 断 控 制 器 8259A 进 行 重新 编程 。 

小 贴 士 

8259A: 专门 为 了 对 8085A 和 8086/8088 进 行 中 
睦 控 制 而 设计 的 蕊 片 ， 是 可 以 用 程序 控制 的 中 断 控 
制 器 。 单 个 的 8259A 能 管理 8 级 向 量 优 先 级 中 断 ， 在 


不 增加 其 他 电路 的 情况 下 ， 最 多 可 以 级 联 成 64 级 的 
向 量 优先 级 中 断 系统 。 


具体 代码 如 下 : 


/代码 路 径 : boot/setup.s 


moval, #0x11! initialization sequence 
out#0x20, al! send it to 8259A-1 

.Word 0x00eb, Ox00eb! jmp$+2, jmp$+2 
out#0xA0, al! and to 8259A-2 

.word Ox00eb, Ox00eb 

mov al, #0x20! start of hardware int's (0x20) 
out#0x21, al 

.word Ox00eb, Ox00eb 

moval, #0x28! start of hardware int's 2 (0x28) 
out#0xA1, al 

.word Ox00eb, Ox00eb 

moval, #0x04! 8259-1 is master 

out#0x21, al 

.word Ox00eb, Ox00eb 

moval, #0x02! 8259-2 is slave 

out#0xA1, al 


.Word 0x00eb, 0x00eb 


mov al, #0x01! 8086 mode for both 

out#0x21, al 

.word Ox00eb, Ox00eb 

out#0xA1, al 

.word Ox00eb, Ox00eb 

mov al, #0xFF! mask off all interrupts for now 
out#0x21, al 

.word Ox00eb, Ox00eb 


out#0xA1, al 


ee 





重新 编程 的 结果 在 图 1-20 中 有 直观 的 表述 。 





CPU 在 保护 模式 下 ，int Ox00~int 0x1F 被 Intel 
保留 作为 内 部 “〈 不 可 屏蔽 ) 中断 和 异常 中 断 。 如 果 
不 对 8259A 进 行 重 新 编程 ，int OxOO~int 0x1F 中 断 
将 被 覆盖 。 例 如 ，IRQ0“〈 时 钟 中 断 ) 为 8 号 Cnt 


0x08) 中 断 ， 但 在 保护 模式 下 此 中 断气 是 Intel 保 留 
的 “Double Fault” (XH Hh) 。 因 此 ， 必 须 通过 
8259A 编 程 将 原来 的 IRQOx00 一 IRQOxoF 对 应 的 中 断 
号 重新 分 布 ， 即 在 保护 模式 下 ， 了 JRQOx00 一 
IRQOxOF 的 中 断 号 是 int 0x20 ~ int 0x2F。 


CPU 在 保护 模式 下 ，int 

0x00~int 0xlF 被 Intel 保 
留 作 内 部 (不 可 屏蔽 ) 中 
断 和 异常 中 断 ， 故 实 模 





式 下 在 此 范围 内 的 中 断 
号 必须 重新 映射 才能 使 
原 有 中 斯 继续 有 效 。 

0x00 
: 8259A 8259A OxlF 
:IRQO 0x00 IRQO 0x20 
IRQ1 0x01 IRQ1 0x21 
: IRQ14 Ox0E IRQI4 0x2E 
denssss IRQ15 OxOF IRQIS5 Ox2F 
中 断 请 求 号 中 断 号 中 断 请 求 号 p 

重新 编程 前 重新 编程 后 


图 1-20 对 可 编程 中 断 控 制 器 重新 编程 


setup 程 序 通 过 下 面 代 人 码 的 前 两 行将 CPU 工作 方 


式 设 为 保护 模式 。 将 CR0 寄 存 器 第 0 位 (PE) #1, 
即 设 定 处 理 器 工作 方式 为 保护 模式 。 


小 贴 士 


CR0 寄 存 器 : 0 号 32 位 控制 寄存 占 ， 存 放 系 统 
控制 标志 。 第 0 位 为 PE (Protected Mode Enable， 保 
护 模式 使 能 ) 标志 ， 置 1 时 CPU 工作 在 保护 模式 
下 ， 置 0 时 为 实 模式 。 


具体 代码 如 下 : 


/代码 路 径 : boot/setup.s 
mov ax, #0x0001! protected mode (PE) bit 
Imsw ax! This is it! 


jmpi 0, 8! jmp offset 0 of segment 8 (cs) 


图 1-21 对 此 做 出 了 直观 的 标示 。 


CPU 工作 方式 转变 为 保护 模式 ， 一 个 重要 的 特 
征 束 是 要 根据 GDT 次 定 后 续 执 行 哪里 的 程序 。 





注意 看 图 1-18 中 对 GDT 的 设置 ， 这 些 设置 都 是 
setup 事 先 安 排 好 了 的 默认 设置 。 从 setup 程 序 跳 转 到 
head 程 序 的 方式 如 图 1-22 所 示 。 
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mE 0 
FY A eor 


PE=1 
处 理 器 进入 保护 模式 


图 1-21 打开 保护 模式 


0x00000 OxFFFFFF 


0x9000:0 OxFFFFF 


| casey | setup 程 序 
1 0x00000000 0x9020:0 /0x9020:7FF 
| 《内核 中 的 head 程 序 起 始 地 址 ) i 


T T si DD an i a 


从 setup 程 序 跳 转 至 head 程 序 起 始 地 址 开始 执行 


图 1-22 程序 段 间 跳 转 


具体 代码 如 下 : 


/代码 路 径 : boot/setup.s 


这 一 行 代码 中 的 “0? 和 是 段 内 俩 移 ，“8" 是 保护 模 
陈 下 的 段 选 择 待 ， 用 于 选择 描述 符 表 和 摘 述 符 表 项 
以 及 所 要 求 的 特权 级 。 这 里 “8” 的 解读 方式 很 有 意 


思 。 如 果 把 “8” 当 做 6、7、8...... 中 的 “8” 这 个 数 来 看 
待 ， 这 行程 序 的 意思 就 很 难 理解 了 。 必 须 把 “8” 看 
成 二 进 制 的 1000， 再 把 前 后 相关 的 代码 联合 起 来 当 
做 一 个 整体 看 ， 在 头脑 中 形成 类 似 图 1-23 所 示 的 
图 ， 才 能 真正 明白 这 行 代码 完 苋 在 说 什么 。 注 意 : 
这 是 一 个 以 位 为 操作 单位 的 数据 使 用 方式 ，4 bit 的 
每 一 位 都 有 明确 的 意义 ， 这 是 底层 源 代码 的 一 个 特 











INO 


保护 模式 开启 前 
Ox00000 OxFFFFF 


gdt (gdt 内 容 ) 





保护 模式 开启 后 
0x00000 OxFFFFFFFF 







代码 段 限 长 : 8 MB 


CE 


8 。 段 基 址 等 信息 | ， 
aa ee cs à 


第 3 十 15 位 


(gdt 内 容 ) ' | 32 位 |16 位 | GDTR 


1-23 ”保护 模式 开局 前 后 的 指令 寻 址 方式 对 比 


段 基 址 : 特权 级 —_ 


0x00000000 
~ 1000000} 100 i 00000000 00000000 0000000000000111 11111111 











T J 
段 限 长 ; ee >8 MB 








gdt 第 1 项 数据 结构 示意 
图 1-23 (48) 
这 里 1000 的 最 后 两 位 00) 表示 内 核 特权 级 ， 


与 之 相对 的 用 户 特权 级 是 11; 第 三 位 的 0 表示 
GDT， 如 果 是 1， 则 表示 LDT; 1000 的 1 表示 所 选 的 





表 【〈 在 此 就 是 GDT) 的 1 项 〈GDT 项 号 排序 为 0 项 、 
1 项 、2 项 ， 这 里 也 就 是 第 2 项 ) 来 确定 代码 段 的 段 
基 址 和 段 限 长 等 信息 。 从 图 1-23 中 我 们 可 以 看 到 ， 
代码 是 从 段 基 址 0x00000000、 偏 移 为 0 处 ， 也 就 是 
head 程 序 的 开始 位 置 开 始 执行 的 ， 这 意味 着 执行 
head 程 序 。 





1.3.5 head.s 开 始 执行 


在 讲解 head 程 序 之 前 ， 我 们 先 介 绍 一 下 从 
bootsect 玫 jmain 消 数 执行 的 整体 技术 策略 。 


在 执行 main 函 数 之 前 ， 先 要 执行 三 个 由 汇编 代 
码 生 成 的 程序 ， 即 bootsect、setup 和 head。 之 后 ， 
才 执 行 由 main 函 数 开始 的 用 C 语 言 编 写 的 操作 系统 
内 核 程序 。 











前 面 我 们 讲 过 ， 第 一 步 ， 加 载 bootsect 到 
0x07C00， 然 后 复制 到 0x90000; 第 二 步 ， 加 载 setup 
到 0x90200。 值 得 注意 的 是 ， 这 两 段 程序 是 分 别 加 
载 、 分 别 执行 的 。 


head 程 序 与 它们 的 加 载 方式 有 所 人 不同。 大致 的 


过 程 是 ， 先 将 head.s 沪 编 成 日 标 代码 ， 将 用 C 语 言 编 
写 的 内 核 程 序 编译 成 目标 代码 ， 然 后 链接 成 system 
模块 。 也 束 是 说 ，system 模 块 里 面 既 有 内 核 程序 ， 
又 有 head 程 序 。 两 者 是 紧 挨 着 的 。 要 点 是 ，head 程 
序 在 前 ， 内 核 程 序 在 后 ， 所 以 head 程 序 名 字 

为 “head”。head 程 序 在 内 存 中 占有 25 KB+184 B 的 空 
则 。 前 面 讲解 过 ，system 模 块 加 载 到 内 存 后 ，setup 
将 system 模 块 复制 到 0x00000 位 置 ， 由 于 head 程 序 在 
system 的 前 面 ， 所 以 实际 上 ，head 程 序 就 在 0x00000 
这 个 位 置 。head 程 序 、 以 main 函 数 开 始 的 内 核 程序 
在 System 模块 中 的 布局 示意 图 如 图 1-24 所 示 。 








system 





head 
—— 25 KB+184 B———+ 
0x00000 0x064B8 


Al 1-24 system 在 内 存 中 的 分 布 示意 图 


head 程 序 除 了 做 一 些 调用 main 的 准备 工作 之 
外 ， 还 做 了 一 件 对 内 核 程 序 在 内 存 中 的 布局 及 内 核 
程序 的 正常 运行 有 重大 意义 的 事 ， 就 是 用 程序 自身 
的 代码 在 程序 自身 所 在 的 内 存 空间 创建 了 内 核 分 页 
机 制 ， 即 在 0x000000 的 位 置 创建 了 页 目录 表 、 页 
表 、 绥 冲 区 、GDT、IDT， 并 将 head 程 序 已 经 执行 
过 的 代码 所 占 内 存 空 间 履 兰 。 这 意味 者 head 程 序 目 
己 将 自己 废弃 ，main 函 数 即将 开始 执行 。 




















以 上 束 是 head 程 序 执行 过 程 的 整体 东 略 。 我 们 


参照 这 个 策略 ， 看 看 head 完 竟 是 怎么 执行 的 。 


在 讲解 head 程 序 执行 之 前 ， 我 们 先 来 关注 一 个 
PRS: _pg_dir， 如 下 面 的 代码 Cboot/head.s) 所 


2N: 


/代码 路 径 : boot/head.s 

.text 

.globl idt, gdt, _pg dir, _tmp_floppy_area 
_pg_dir: 

Startup _32: 

movl $0x10, %eax 

mov %ax, %ds 

mov %ax, %es 

mov %ax, %fs 


mov %ax, %gs 


标 写 _pg_dir 标 识 内 核 分 页 机 制 完 成 后 的 内 核 起 
始 位 置 ， 也 束 是 物理 内 存 的 起 始 位 置 0xz000000。 
head 程 序 马 上 就 要 在 此 处 建立 页 目录 表 ， 为 分 页 机 





制 做 准备 。 这 一 后 非常 重要 ， 是 内 核能 够 掌控 用 户 
进程 的 基础 之 一 ， 后 续 章 节 将 逐步 讲解 。 图 1-25 中 
描述 了 页 目录 表 在 内 存 中 所 占 的 位 置 。 





0x00000 OxFFFFFF 


SETUPSEG = 0x9020 OxFFFFF E3 
m | T 


0x0000~0x4FFF, 20KB 
此 位 置 将 作为 页 目录 表 


图 1-25 建立 内 核 分 页 机 制 


现在 head 程 序 正式 开始 执行 ， 一 切 都 是 为 适应 
保护 模式 做 准备 。 在 图 1-25 中 ， 其 本 质 就 是 让 CS 的 
用 法 从 实 模 式 转变 到 保护 模式 。 在 实 模式 下 ，CS 本 
吴 就 是 代码 段 基 址 。 在 保护 模式 下 ，CS 本 吴 不 是 代 
码 段 基 址 ， 而 是 代码 段 选 择 符 。 通 过 对 图 1-25 的 分 
析 得 知 ，jmpi0，8 这 人 句 代 但 使 CS 和 GDT 的 第 2 项 天 
联 ， 并 且 使 代码 段 基 址 指向 0x000000。 





从 现在 开始 ， 要 将 DS、ES、FS 和 GS 等 其 他 寄 
存 器 从 实 模式 转变 到 保护 模式 。 执 行 代码 如 下 : 


/代码 路 径 : boot/head.s 
Startup _32: 

movl $0x10, %eax 
mov %ax, %ds 

mov %ax, %es 

mov %ax, %fs 


mov %ax, %gs 


执行 完毕 后 ，DS、ES、FS 和 GS 中 的 值 都 成 为 
0x10。 与 前 面 提 到 的 jmpi 0，8 中 的 8 的 分 析 方 法 相 
同 ，0x10 也 应 看 成 二 进 制 的 00010000， 最 后 三 位 与 


前 面 讲解 的 一 样 ， 其 中 最 后 两 位 (00〉 表示 内 核 特 
权 级 ， 从 后 数 第 3 位 (0) 表示 选择 GDT， 第 4、5 两 
位 (10) 是 GDT 的 2 项 ， 也 就 是 第 3 项 。 也 就 是 说 ， 
4 个 寄存 器 用 的 是 同一 个 全 局 描述 符 ， 它 们 的 段 基 
址 、 段 限 长 、 特 权 级 都 是 相同 的 。 特 别 要 注意 的 
是 ， 影 响 段 限 长 的 关键 字段 的 值 是 0x7FF， 段 限 长 
就 是 8 MB. 








图 1-26 给 出 了 详细 示意 。 


aca —— oa 


ee 


ei |GDTR , 








gdt 第 2 项 数据 结构 示意 


图 1-26 设置 DS、ES、FS、GS 


有 具体 的 设置 方式 与 图 1-23 类 似 ， 都 要 参考 GDT 
中 的 内 容 。 上 述 代 码 中 的 movl1$0x10，%eax 中 的 
0x10 是 GDT 中 的 偏 移 值 〈 用 二 进 制 表示 融 是 


10000) ， 即 要 参考 GDT 中 第 2 项 的 信息 (GDT 项 号 
排序 为 第 0 项 、 第 1 项 、 第 2 项 ) 来 设置 这 些 段 寄存 
髓 ， 这 一 项 怠 是 内 核 数 据 段 描述 符 。 


RAE 


各 段 重 登 ， 这 样 的 编码 操作 方式 需要 头脑 非常 


VE 
清楚 ! 


SS 现在 也 要 转变 为 栈 段 选择 符 ， 栈 项 指针 也 成 
为 32 位 的 esp， 如 下 所 示 。 


Iss _stack_start, %esp 


{Ekernel/sched.c'#, stack_start={ & 
user_stack[PAGE_SIZE > >2], Ox10}3% 47 fC AIGA 
顶 指 针 指 同 user_stack 数 据 结构 的 最 末 人 位置。 这 个 数 





据 结 构 是 在 kernel/sched.c 中 定义 的 ， 如 下 所 示 : 


long user_stack[PAGE_SIZE> >2] 


我 们 测算 出 其 起 始 位 置 为 0x1E25C。 
小 贴 士 


设置 段 寄存 器 指令 (Load Segment 
Instruction) : 该 组 指令 的 功能 是 把 内 存单 元 的 一 
个 “ 低 字 ”传送 给 指令 中 指定 的 16 位 寄存 右 ， 把 随后 
的 一 个 “高 字 ” 传 给 相应 的 段 寄 存 器 (DS、ES、 
FS, GS#ISS) 。 其 指令 格式 如 下 : 








LDS/LES/LFS/LGS/LSS Mem,Reg 


和 令 LDS (Load Data Segment Register) 和 


LES (Load Extra Segment Register) 在 8086 CPU 中 
WATE, MLFSFHLGS, LSS (Load Stack Segment 
Register) 是 80386 及 其 以 后 CPU 中 才 有 的 指令 。 重 


Reg 是 16 位 寄存 器 ， 则 Mem 必 须 是 32 位 指针 ;大 





Reg 是 32 位 寄存 器 ， 则 Mem 必 须 是 48 位 指针 ， 其 低 


32 位 给 指令 中 指定 的 寄存 硕 ， 高 16 位 给 指令 中 的 段 





0x10 将 SS 设置 为 与 前 面 4 个 段 选 择 符 的 值 相 
同 。 这 样 SS 与 前 面 讲解 过 的 4 个 段 选择 符 相 同 ， 段 
基 址 都 是 指 同 0x000000， 段 限 长 都 是 8 MB， 特权 
级 都 是 内 核 特 权 级 ， 后 面 的 压 栈 动 作 就 要 在 这 里 进 


A 


{TJ o 





特别 值得 一 提 的 是 ， 现 在 刚刚 从 实 模式 转变 到 
你 护 模式 ， 段 基 址 的 使 用 方法 和 实 模 陈 兰 别 非 党 


大 ， 要 使 用 GDT 产 生 段 基 址 ， 前 面 讲 到 的 那 几 行 设 
置 段 选 择 符 的 指令 本 喘 都 是 要 用 GDT 寻 址 的 。 现 在 
束 能 清楚 地 看 出 ， 如 朵 没有 setup 程 序 在 16 位 实 模式 
下 模拟 32 位 保护 模式 而 创建 的 GDT， 私 怕 前 面 这 几 
行 指令 都 无 法 执行 。 


注意 ， 栈 项 的 增长 方 问 是 从 高 地 址 同 低 地 址 
的 ， 参 见 图 1-27。 注 意 栈 段 基 址 和 ESP 在 图 中 的 位 
置 。 


0x00000 OxFFFFFF 


OxFFFFF 
Maes | AKER (Ox 1E25C) 


(ORBLE 
数据 段 基 址 
栈 段 基 址 Sa 


4 KB 
user_stack[0] user_stack[1024] 


ESP 
stack( 栈 ， 及 栈 顶 增长 方向 ) 


图 1-27 设置 栈 


我 们 现在 回忆 一 下 图 1-8 中 对 栈 顶 指针 的 设 


置 ， 那 时 候 是 设置 SP， 而 这 时 候 是 设置 ESP， 多 加 
了 一 个 字母 E， 这 是 为 适应 保护 模式 而 做 的 调整 。 
这 段 内 容 对 应 的 代码 如 下 : 


/代码 路 径 : boot/head.s 


Iss _stack_start, %esp 


head 程 序 接 下 来 对 IDT 进 行 设置 ， 代 人 码 如 下 : 


/代码 路 径 : boot/head.s 
startup _32: 

movl $0x10, %eax 
mov %ax, %ds 

mov %ax, %es 

mov %ax, %fs 


mov %ax, %gs 


Iss __stack_start, %esp 
call setup_idt 

call setup_gdt 

setup _idt: 

lea ignore_int, %edx 


movl $0x00080000，%eax/*8 应 该 看 成 1000， 这 个 值 在 第 2 章 初始 化 
IDT 时 会 用 到 


movw %dx, %ax/*selector=0x0008=cs*/ 

movw $0x8E00, %dx/*interrupt gate-dpl=0, present*/ 
lea idt, %edi 

mov $256, %ecx 

rp _sidt: 

movl %eax, (%edi) 

movl %edx, 4 (%edi) 

addl $8, %edi 


dec %ecx 


jne rp_sidt 
lidt idt_descr 


ret 


ignore _ int: 
pushl %eax 
pushl %ecx 
pushl %edx 
push %ds 

push %es 

push %fs 

movl $0x10, %eax 
mov %ax, %ds 
mov %ax, %es 
mov %ax, %fs 


pushl $int_msg 


call _ printk 
popl %eax 
pop %fs 
pop %es 
pop %ds 
popl %edx 
popl %ecx 
popl %eax 
iret 


ee 


idt _descr: 
.word 256*8-1#idt contains 256 entries 
.long_idt 


_idt: .fill 256, 8, O#idt is uninitialized 


小 幅 士 


一 个 中 断 描 述 符 的 结构 如 图 1-28 所 示 。 





| 


Un 
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图 1-28 中 断 描述 符 


中 断 描 述 符 为 64 位 ， 包 含 了 其 对 应 中 断 服 务 程 
序 的 段 内 偏 移 地 址 (OFFSET) 、 所 在 段 选 择 符 
(SELECTOR) 、 摘 述 符 特 权 级 DPL) 、 段 存在 


标志 《〈P) 、 段 描述 符 类 型 “TYPE ) 等 信息 ， 供 
CPU 在 程序 中 需要 进行 中 断 服 务 时 找到 相应 的 中 断 
服务 程序 。 其 中 ， 第 0 一 15 位 和 第 48 一 63 位 组 合成 
32 位 的 中 断 服 务 程 序 的 段 内 偏 移 地 址 

(OFFSET) ; 第 16 一 31 位 为 段 选 择 符 
(SELECTOR) ， 定 位 中 断 服 务 程 序 所 在 段 ， 第 47 
位 为 段 存 在 标志 (P) ， 用 于 标识 此 段 是 否 存在 于 
内 存 中 ， 为 虚拟 存储 提供 文 持 ， 第 45 一 46 位 为 特权 
级 标志 (DPL) ， 特 权 级 范围 为 0 一 3; 第 40 一 43 位 
为 段 描述 符 类 型 标志 CIPYE) ， 中 断 描述 符 对 应 
的 类 型 标志 为 0111 (COxE) ， 即 将 此 段 描述 符 标 记 
为 “386 中 断 门 ”。 














这 和 是 重建 保护 模式 下 中 上 断 服 务 体系 的 开始 。 程 
序 和 完 让 所 有 的 中 断 插 述 符 默认 指 问 ignore_int 这 个 位 


置 〈 将 来 main 函 数 里 面 还 要 让 中 断 摘 述 符 对 应 具体 
的 中 断 服 务 程 序 ) ， 之 后 还 要 对 IDT 寄 存 左 的 值 进 
行 设置 。 图 1-29 显 示 了 有 具体 的 操作 状态 。 


0x00000 OxFFFFFF 





31 IDT 表 项 0 


图 1-29 设置 IDT 


RAE 


构造 IDT， 使 中 断 机 制 的 整体 染 构 先 搭 建 起 来 
《实际 的 中 断 服 务 程序 挂 接 则 在 main 函 数 中 完 
成 ) ， 并 使 所 有 中 断 服务 程序 指 问 同一 段 只 显示 一 
行 提示 信息 束 返 回 的 服务 程序 。 从 编程 拉 术 上 讲 ， 


PPAR EERIE, BRT VAD ETC ht AS Ba 
据 而 引起 的 逻辑 混乱 ， 也 可 以 对 开发 过 程 中 的 误 操 
作 给 出 及 时 的 提示 。IDT 有 256 个 表 项 ， 实 际 只 使 用 
了 几 二 个， 对 于 误 用 未 使 用 的 中 断 摘 述 符 ， 这 样 的 
提示 信息 可 以 提醒 开 友人 员 注 意 错 误 。 





现在 ，head 程 序 要 废除 已 有 的 GDT， 并 在 内 核 
中 的 新 位 置 重新 创建 GDT， 如 图 1-30 所 示 。 其 中 第 
2 项 和 第 3 项 分 别 为 内 核 代 码 段 描述 符 和 内 核 数据 段 
描述 符 ， 其 段 限 长 均 和 被 设置 为 16 MB， 并 设置 
GDTR 的 值 。 





0x00000 





nl 


| 代码 段 基 址 “….… “| ! 注 意 ， 原 gdt 废 除 不 用 。 


$e 
Se 


47 ”基地 址 ”15 限 长 9 
| Ox54B2 |7FF | 
GDTR 





! 注 意 : 新 gdt 也 只 有 前 两 项 ， 
并 只 修改 了 原 表 中 的 段 限 长 。 


图 1-30 重新 创建 GDT 


代码 如 下 : 





/代码 路 径 : boot/head.s 
startup _32: 

movl $0x10, %eax 
mov %ax, %ds 


mov %ax, %es 


mov %ax, %fs 

mov %ax, %gs 

Iss __stack_start, %esp 
call setup_idt 

call setup_gdt 

setup _ gdt: 

Igdt gdt_descr 

ret 


ee 


gdt _descr: 
.Word 256*8-1#so does gdt (not that that's any 


.long_gdt#magic number,but it works for me: ^) 


_idt: .fill 256, 8, O#idt is uninitialized 

_gdt: .quad Ox0000000000000000/*NULL descriptor*/ 
.quad 0x00cO09a0000000Fff/* 16Mb*/ 

.quad 0x00c0920000000fff/* 16Mb*/ 

.quad 0x0000000000000000/* TEMPORARY -don't use*/ 


fill 252, 8, O/*space for LDT's and TSS's etc*/ 


RAE 


为 什么 要 废除 原来 的 《GDT) 而 重新 设置 一 套 


GDT 呢 ? 


原来 GDT 所 在 的 位 置 是 设计 代码 时 在 setup.s 里 
面 设置 的 数据 ， 将 来 这 个 setup 模 块 所 在 的 内 存 位 置 
会 在 设计 缓冲 区 时 被 履 产 。 如 有 果 不 改变 位 置 ， 将 来 
GDT 的 内 容 肯定 会 被 缓冲 区 窗 广 挥 ， 从 而 影响 系 统 
的 运行 。 这 样 一 来 ， 将 来 整个 内 存 中 唯一 安全 的 地 











方 就 是 现在 head.s 所 在 的 位 置 了 。 


那么 有 没有 可 能 在 执行 setup 程 序 时 直接 把 GDT 
的 内 容 复制 到 head.s 所 在 的 位 置 呢 ? 肯定 不 能 。 如 
果 先 复制 GDT 的 内 容 ， 后 移动 system 模 块 ， 它 束 会 
被 后 者 获 盖 :如 果 先 移动 System 模块 ， 后 复制 GDT 
的 内 容 ， 它 又 会 把 head.s 对 应 的 程序 覆盖 ， 而 这 时 
head.s 还 没有 执行 。 所 以 ， 无 论 如 何 ， 者 要 重 新 建 
GDT。 


GDT 的 位 置 和 内 容 发 生 了 变化 ， 特 别 要 注意 最 
后 的 三 位 是 FFF， 说 明 段 限 长 不 是 原来 的 8 MB， 而 
是 现在 的 16 MB。 如 果 后 面 的 代码 第 一 次 使 用 这 几 
个 段 选择 符 ， 就 是 访问 8 MB 以 后 的 地 址 空间 ， 将 
会 产生 段 限 长 超 限 报警 。 为 了 防止 这 类 可 能 发 生 的 
情况 ， 这 里 再 次 对 一 些 段 选 择 符 进行 重新 设置 ， 包 




















括 DS、ES、FS、GS 及 SS， 方 法 与 图 1-26 类 似 ， 主 
要 是 段 限 长 增加 了 一 倍 ， 变 为 16 MB。 上 述 过程 如 
图 1-31 所 示 。 


段 限 长 ，0x00FFFx4KB ->16 MB 


gdt_descr 第 2 项 数据 结构 示意 





图 1-31 再 一 次 调整 DS、ES、FS、GS 


调整 DS、ES 等 寄存 器 的 代码 如 下 


/代码 路 径 : boot/head.s 


movl $0x10, %eax#reload all the segment registers 
mov %ax, %ds#after changing gdt.CS was already 
mov %ax, %es#reloaded in'setup_gdt' 

mov %ax, %fs 

mov %ax, %gs 


现在 ， 栈 顶 指针 esp 指 向 user_stack 数 据 结 构 的 
外 边缘 ， 也 就 是 内 核 栈 的 栈 底 。 这 样 ， 当 后 面 的 程 
厅 需 要 压 栈 时 ， 束 可 以 最 大 限度 地 使 用 栈 空间 。 栈 
顶 的 增长 方 同 是 从 高 地 址 同 低地 址 的 ， 如 图 1-32 所 
示 。 设 置 esp 的 代码 如 下 : 


/代码 路 径 : boot/head.s 





内 核 OxFFFFF 
M1 S A 
n TA “| wb ox1E280) 

et) | 





| 4KB 
user_stack[0] user_stack[1024] 
ESP 
stackf 栈 ， 及 栈 顶 增长 方向 ) 


图 1-32 设置 内 核 栈 


因为 A20 地 址 线 是 否 打开 影响 保护 模式 是 否 有 
效 ， 所 以 ， 要 检验 A20 地 址 线 是 否 确实 打开 了 。 图 
1-33 给 出 了 直观 的 标示 。 


0x00000 OxFFFFFF 


<< ss. 
上 在 0x000000 地 址 处 写 入 一 个 数值 


Íouo00000 


mam 0x100000 
| 相等 / 


z NIA 
MI ne 1 经 打开 


图 1-33 检验 A20 是 否 打开 








检验 A20 是 人 否 打开 的 代码 如 下 : 





/代码 路 径 : boot/head.s 

xorl %eax, %eax 

1: incl%eax#check that A20 really IS enabled 
movl %eax, Ox000000#loop forever if it isn't 
cmpl %eax, 0x100000 

je 1b 


RAE 


A20 如 采 没 打开 ， 则 计算 机 处 于 20 位 的 寻 址 模 
式 ， 超 过 0xFFFFF 寻 址 必然 “ 回 滚 ”。 一 个 特例 是 
0x100000 会 回 滚 到 0x000000， 也 就 是 说 ， 地 址 
0x100000 处 存储 的 值 必 然 和 地 址 0x000000 处 存储 的 
值 完 全 相同 (参见 对 图 1-31 的 描述 ) 。 通 过 在 内 存 
0x000000 位 置 写 入 一 个 数据 ， 然 后 比较 此 处 和 1 
MB 〈0x100000， 注 意 ， 已 超过 实 模式 寻 址 范围 ) 
处 数据 是 否 一 致 ， 就 可 以 检验 A20 地 址 线 是 否 已 打 
He 





确定 A20 地 址 线 已 经 打开 之 后 ，head 程 序 如 果 
检测 到 数学 协 处 理 器 存在 ， 则 将 其 设置 为 保护 模式 
工作 状态 ， 如 图 1-34 所 示 。 


31 4 10 
LY CR0 寄 存 器 
PG ET | |PE 
是 否 存在 x87 协 处 理 器 a 
存在 不 存在 
将 x87 设 置 为 保护 模式 设置 CRO -l 


图 1-34 检测 数学 协 处 理 需 
小 贴 士 


x87 协 处 理 器 : 为 了 弥补 x86 系 列 在 进行 浮 点 运 
算 时 的 不 足 ，Intel 于 1980 年 推出 了 x87 系 列 数学 协 
处 理 器 ， 那 时 是 一 个 外 置 的 、 可 选 的 芯片 《笔者 当 
时 的 80386 计 算 机 上 就 没 安 装 80387 协 处 理 器 ) 。 
1989 年 ，Intel 发 布 了 486 处 理 器 。 自 从 486 开 始 ， 以 
后 的 CPU 一 般 者 内置 了 协 处 理 袁 。 这 样 ， 对 于 486 
以 前 的 计算 机 而 言 ， 操 作 系 统 检 验 x87 协 处 理 器 是 
个 存在 就 非常 必要 了 。 


检测 数学 协 处 理 硕 对 应 的 代码 如 下 : 





/代码 路 径 : boot/head.s 

movl %cr0, %eax#check math chip 

andl $0x80000011, %eax#Save PG,PE,ET 
/*"orl$0x10020, %eax"here for 486 might be good*/ 
orl $2, Y%eax#set MP 

movl %eax, %cr0 

call check_x87 

jmp after_page_tables 

/* 

*We depend on ET to be correct. This checks for 287/387.*/ 
check _ x87: 

fninit 

fstsw %ax 

cmpb $0, %al 


je 1f/*no coprocessor: have to set bits*/ 


movl %cr0, %eax 

xorl $6, %eax/*reset MP,set EM*/ 

movl %eax, %cr0 

ret 

align 2 

1: .byte OxDB, OxE4/*fsetpm for 287, ignored by 387*/ 


Ret 





head 程 序 将 为 调用 main 函 数 做 最 后 的 准备 。 这 
是 head 程 序 执行 的 最 后 阶段 ， 也 是 main 函 数 执行 前 
的 最 后 阶段 。 具 体 如 图 1-35 所 示 。 


0x00000 OxFFFFFF 
内 核 OxFFFFF 
MBE “… | 内 核 校 (0x1E25C) 
数据 段 基 址 "liebe 
栈 自 基 址 > oò 
user _stack{ 0] user stack[1024] 


ESP 
stack( 栈 ， 及 栈 顶 增长 方向 ) 


图 1-35 将 enovp、argv、argc 压 栈 


head 程 序 将 L6 标 号 和 main 函 数 入 口 地 址 压 栈 ， 
栈 顶 为 main 函 数 地 址 ， 目 的 是 使 head 程 序 执行 完 后 
通过 ret 指 令 就 可 以 直接 执行 main 函 数 。 有 具体 如 图 1- 
36 上 所 示 。 


0x00000 OxFFFFFF 
WK OxFFFFF | 
een | 1A FL(Ox 1E25C) 
数据 段 基 址 ai 
栈 段 基 址 mainlL6 | | 


user stack[0] user _ Stack[1024] 
Pem 


ESP 
stack( 栈 ， 及 栈 顶 增长 方向 ) 


图 1-36 将 main 函 数 入 口 地 址 和 L6 标 号 压 栈 


AVF 


main K AE IE A Be ADB H. WR 


main K E BH, MAR ENX E MER y LOA AK BE 





执行 ， 此 时 ， 还 可 以 做 一 些 系统 调用 .……. 另外 有 意 
思 的 是 ， 即 使 main 函 数 退 出 了 ， 如 果 还 有 进程 存 
在 ， 仍 然 能 够 进行 轮转 。 











执行 代码 如 下 : 





/代码 路 径 : boot/head.s 

orl $2, %eax#set MP 

movl %eax, %cr0 

call check_x87 

jmp after_page_tables 

after _page_tables: 

pushl $0#These are the parameters to main: -) 
pushl $0 


pushl $0 


pushl $L6#return address for main,if it decides to. 
pushl $ main 

jmp setup_paging 

L6: 


jmp L6#main should never return here,but 


这 些 压 栈 动作 完成 后 ，head 程 序 将 跳 转 至 
setup_paging: 去 执行 ， 开 始 创 建 分 页 机 制 。 


先 要 将 页 目录 表 和 4 个 页 表 放 在 物理 内 存 的 起 
始 位 置 ， 从 内 存 起 始 位 置 开 始 的 5 页 空间 内 容 全 部 
消 零 (每 页 4KB) ， 为 初始 化 页 目录 和 页 表 做 准 
备 。 注 意 ， 这 个 动作 起 到 了 用 1 个 页 目录 表 和 4 个 页 
KA inheadte H AAT ATE ZIRE AD. 1-37 
给 出 了 直观 的 标示 。 


内 核 ia 


epg ~Ox4FFF, 20 KB 
forman Enn ns- 


图 1-37 将 页 目录 表 和 页 表 放 在 内 存 起 始 位 置 


将 页 目录 表 和 4 个 页 表 放 在 物理 内 存 的 起 始 位 
置 ， 这 个 动作 的 意义 重大 ， 是 操作 系统 能 够 学 控 全 





局 、 擎 控 进 程 在 内 存 中 安全 运行 的 基石 之 一 ， 后 续 
章节 会 逐步 论述 。 


head 程 序 将 页 目录 表 和 4 个 页 表 所 占 物理 内 存 
空间 清 零 后， 设置 页 目录 表 的 前 4 项 ， 使 之 分 别 指 


问 4 个 页 表 ， 如 图 1-38 所 示 。 


0x00000 
- OxFFFFF 
: $ 
i 
ia T 0x0000 一 0x4FFF, 20 KB 


ipapares 页 目录 及 4 个 页 表 


栈 段 基 址 ita 
ft 





Ona “| 











0x0000 0x1000 0x2000 0x3000 0x4000 
(_pg_dir) (pg0) (pel) o (pg3) 
一 页 目录 表 一 页 表 0- ri 
页 目录 中 的 4 个 页 表 项 地 址 已 填写 完毕 ! = a 
Cre 
0 OxFFFFFF 
内 存 寻 址 空间 (tam 


图 1-38 使 页 目录 表 的 前 4 项 指 癌 4 个 页 表 


head 程 序 设置 完 页 目录 表 后 ，Linux 0.11 在 保 
护 模式 下 支持 的 最 大 寻 址 地 址 为 0xXFFFFFF (16 
MB) ， 此 处 将 第 4 个 页 表 《〈 由 pg3 指 向 的 位 置 ) 的 
最 后 一 个 页 表 项 (pg3+4902 指 向 的 位 置 ) 指向 寻 址 
范围 的 最 后 一 个 页 面 ， 即 0xFFF000 开 始 的 4 KB 字 





市 大 小 的 内 存 空 间 。 有 基体 请 看 图 1-39 的 标示 。 














n OxFFFFF 
ee 0x0000~0x4FFF, 20 KB 
vpn 页 目录 及 4 个 页 表 
| 栈 段 基 址 iil 
0x0000 0x1000 0x2000 0x3000 0x4000 on 
(pedir) (pg0) (p21) (pg2) (pg3) ya 
+ 一 页 目录 一 页 表 0-3 “OKAY 08 1000 
i 
tol 
0 OxFFFFFF 
ee 4K4K (16 MB) 





图 1-39 页 目 录 表 设置 完成 后 的 状态 


然后 开始 从 高 地 址 同 低 地 址 方 癌 填写 4 个 页 
表 ， 依 次 指向 内 存 从 高 地 址 向 低地 址 方向 的 各 个 页 
面 。 赂 1-39 所 示 古 首次 设置 页 表 。 


继续 设置 页 表 。 将 第 4 个 页 表 〈( 由 pg3 指 问 的 位 
置 ) 的 倒数 第 二 个 页 表 项 (pg3-4+4902 指 向 的 位 


置 ) 指 同 倒数 第 二 个 页 面 ， 即 0xXFFF000 一 
0x1000 (0x1000 即 4 KB， 一 个 页 面 的 大 小 ) 开始 的 
4 KB 字 市 内 存 空间 。 请 读者 认真 对 比 图 1-40 和 图 1- 
39， 有 多 处 位 置 发 生 了 变化 。 


OxFFFFFF 





0x00000 
内 核 OxFFFFF 
o ai 0x0000~Ox4FFF, 20 KB 
SM BALE TARRAK 
栈 段 基 址 ii : 

















0x0000  0x1000 0x2000 0x3000  0x4000 ox4FFE | 

(_pg_dir) (pg0) (pel) (pg2) (pg3) pens 
RAR RS RRO OXF FFO07.4x 1000 

no nf 
0 H OxFFFFFF 
内 存 寻 址 空间 SKAK- 1G SEE) 
图 1-40 设置 页 表 
最 终 ， 从 高 地 址 向 低地 址 方向 完成 4 个 页 表 的 


填写 ， 页 表 中 的 每 一 个 页 表 项 分 别 指 同 内 存 从 高 地 


址 向 低地 址 方 辐 的 各 个 页 面 ， 如 图 1-41 所 示 。 其 总 
体 效果 如 图 1-42 所 示 。 


0x00000 OxFFFFFF 
is > 
te 0x0000~0x4FFF, 20 KB 
(esa Fil RR RAT WR 
| 栈 段 基 址 il 
0x0000 0x1000 0x2000 0x3000 0x4000 Ox4FFF 
(pg_dir) (pg0) (pg1) (pg2) (pg3) 
- 页 目录 家 二 + it #20~3 








页 目录 表 和 页 表 全 部 填写 完毕 ! 


图 1-41 页 目录 表 和 页 表 设 置 完 毕 的 状态 









——— 
= a i (| 
= <, 


RY x4FFF 





0x0000 0x1000 0x2000 0x3000 
( pg dir) (pg0) (pgl) (pg2) (a3 


图 1-42 总 体 效果 图 


这 4 个 页 表 痢 是 内 核 专 属 的 页 表 ， 将 来 每 个 用 
户 进 程 都 会 有 它们 专属 的 页 表 。 对 于 两 者 在 寻 址 范 


围 方面 的 区 别 ， 我 们 将 在 用 户 进程 与 内 存 管理 一 章 


中 详细 介绍 。 


图 1-39 一 图 1-41 中 发 生动 作 的 相应 代码 如 下 : 





/代码 路 径 : boot/head.s 

.align 2 

setup _paging: 

movl $1024*5, %ecx/*5 pages-pg_dir+4 page tables*/ 
xorl %eax, Y%eax 

xorl %edi, %edi/*pg_dir is at Ox000*/ 

cld; rep; stosl 


入 下 面 几 行 中 的 7 应 看 成 二 进 制 的 111， 有 是 页 属性 ， 代 表 us、rYw、 


Present， 


111 代 表 : 用 户 u、 读 写 rw、 存 在 p，000 代 表 : 内核 s、 只 读 r、 不 存 
在 */ 


movl $pg0+7, _pg_dir/*set present bit/user r/w*/ 


movl $pg1+7, _pg_dirt+4/*--------- ""--------- */ 

movl $pg2+7, _pg dir+8/*--------- ""--------- */ 

movl $pg3+7, _pg dir+12/*--------- ""--------- T 

movl $pg3+4092, %edi 

movl $0xfff007, %eax/*16Mb-4096+7 (r/w user,p) */ 
std 

1: stosl/*fill pages backwards-more efficient: -) */ 
subl $0x1000, %eax 

jge 1b 


ee 








这 些 工 作 完成 后 ， 内 存 中 的 布局 如 图 1-43 所 


示 。 可 以 看 出 ， 只 有 184 字 节 的 剩余 代码 。 由 此 可 
见 ， 在 设计 head 程 序 和 system 模 块 时 ， 其 计算 是 非 
第 精确 的 ， 对 head.s 的 代码 量 的 控制 非常 到 位 。 


head 程 序 已 将 页 表 设 置 完毕 了 ， 但 分 页 机 制 的 





建立 还 没有 完成 ， 还 需要 设置 页 目录 表 基 址 寄存 器 
CR3， 使 之 指向 页 目录 表 ， 再 将 CR0 寄 存 器 设置 的 
最 高 位 〈31 位 ) 置 为 1， 如 图 1-44 所 示 。 


0x064b8 


0x0Scb8 


0x054b8 
0x05400 


0x05000 
0x04000 
0x03000 
0x02000 


0x01000 





0x00000 


图 1-43 内 存 分 布 示意 图 


0x00000 OxFFFFFF 


= = 


Pere, 


人 
ae ini TOE CROW 4 28 
ogg G 

0x0000 0x1000 0x2000 0x3000 0x4000 Ox4FFF 

_dir) (pg0) (pg!) (pg2) (pg3) 
页 目录 家 二 一 NR = 

0x0000( pg_dir) i. | | re 
H HRE Hh 








图 1-44 分 页 机 制 完 成 后 的 总 体 状 态 
小 贴 证 


PG (Paging) 标志 : CR0 寄 存 器 的 第 31 位 ， 分 
页 机 制 控 制 位 。 当 CPU 的 控制 寄存 器 CR0 第 0 位 
PE 保护 模式 ) 置 为 1 时 ， 可 设置 PG 位 为 开局 。 当 
开局 后 ， 地 址 映射 模式 采取 分 页 机 制 。 当 CPU 的 控 
制 寄存 器 CR0 第 0 位 PE 保护 模式 ) 置 为 0 时 ， 设 置 


PG 位 将 引起 CPU 发 生 异 常 。 


CR3ay teas: 3 号 32 位 控制 寄存 器 ， 其 高 20 位 
存放 页 目录 表 的 基地 址 。 当 CRO0 中 的 PG 标志 置 位 
时 ，CPU 使 用 CR3 指 癌 的 页 目录 表 和 页 表 进 行 虚 拟 
地 址 到 物理 地 址 的 映射 。 





执行 代码 如 下 : 


/代码 路 径 : boot/head.s 

xorl %eax, %eax/*pg_ dir is at Ox0000*/ 
movl %eax, %cr3/*cr3-page directory start*/ 
movl %cr0, %eax 

orl $0x80000000, %eax 


movl %eax, %cr0/*set paging (PG) bit*/ 


前 两 行 代码 的 动作 是 将 CR3 指 癌 页 目录 表 ， 意 
味 着 操作 系统 认定 0x0000 这 个 位 置 就 是 页 目录 表 的 
起 始 位 置 ， 后 3 行 代码 的 动作 是 启动 分 页 机 制 开关 
PG 标志 置 位 ， 以 局 用 分 页 寻 址 模式 。 两 个 动作 一 气 
阿 成 。 到 这 里 为 止 ， 内 核 的 分 页 机 制 构建 完毕 。 后 
续 章 市 还 会 讲解 如 何 建立 用户 进 程 的 分 页 机 制 。 








最 午 要 的 是 下 耐 这 一 行 代码 。 它 看 似 简单 ， 但 


az YA 一 
a YNZE o 


xorl %eax, %eax/*pg_dir is at Ox0000*/ 


回 过 头 来 看 ， 图 1-17 将 system 模 块 移动 到 
0x00000 处 ， 图 1-25 在 内 存 的 起 始 位 置 建立 内 核 分 
页 机 制 ， 最 后 就 是 上 面 的 这 行 代 码 ， 认 定 页 目录 表 





在 闪存 的 起 始 位 置 。 三 个 动作 联合 起 来 为 操作 系统 
中 最 重要 的 目的 一 一 和 内核 控 制 用 户 程序 侈 定 了 基 
础 。 这 个 位 置 是 内 核 通 过 分 页 机 制 能 够 实现 线性 地 
址 等 于 物理 地 址 的 唯一 起 始 位 置 。 我 们 会 在 后 续 章 
方 逐 层 展开 讨论 。 


head 程 序 执行 最 后 一 步 : ret。 这 要 通过 跳 入 
main pA FENY TAIT 


fEA1-367, main Ki žt A O HEHE JEA SR 
顶 。 现 在 执行 rat 了 ， 正 好 将 压 入 的 main 函 数 的 执行 
入 口 地 址 弹出 给 EIP。 图 1-45 标 示 了 出 栈 动 作 。 


OxFFFFFF 


内 核 OxFFFFF 
= 
代码 段 基 址 。 内 核 栈 (0x1E25C) 
数据 段 基 址 kei 
栈 段 基 址 

_Stac Kio) _stack[ 1024] 
弹出 main 函 数 地 址 


stack( 栈 ， 及 楼 顶 增长 方向 ) man EP] 


图 1-45 执行 rat， 将 main 函 数 入 口 地 址 弹出 给 
EIP 





这 部 分 代码 用 了 底层 代码 才 会 使 用 的 技巧 。 我 
们 结合 图 1-45 对 这 个 技巧 进行 详细 讲解 。 我 们 先 看 
看 普通 函数 的 调用 和 返回 的 方法 。 因 为 Linux 0.11 
用 返回 方法 调用 main 函 数 ， 返 回 位 置 和 main 函 数 的 
入 口 在 同一 段 内 ， 所 示 我 们 只 讲解 段 内 调用 和 返 
回 ， 如 图 1-46《 仿 call 示 意图 ) 所 示 。 





call 的 调用 与 返回 











after_page tables 








Al 1-46 仿 call 示 意图 


call 指 令 会 将 EIP 的 值 目 动 压 栈 ， 保 护 返 回 现 


场 ， 然 后 执行 被 调 函 数 的 程序 。 等 到 执行 被 调 函 数 
的 ret 指 令 时 ， 自 动 出 栈 给 EIP 并 还 原 现场 ， 继 续 执 
行 call 的 下 一 行 指令 。 这 是 通常 的 函数 调用 方法 。 
对 操作 系统 的 main 函 数 来 说 ， 这 个 方法 就 有 些 怪 异 
了 。main 函 数 是 操作 系统 的 。 如 末 用 call 调 用 操作 
系统 的 main 函 数 ， 那 么 ret 时 返回 给 谁 呢 ? 难道 还 有 
一 个 更 底层 的 系统 程序 接收 操作 系统 的 返回 吗 ? BR 
作 系 统 已 经 是 最 底层 的 系统 了 ， 所 以 逻辑 上 不 成 
。 那 么 如 何 既 调用 了 操作 系统 的 main 函 数 ， 义 不 
需要 返回 呢 ? 操 作 系 统 的 设计 者 采用 了 图 1-46 念 
call 示 意图 ) 所 示 的 方法 。 




















这 个 方法 的 妙 处 在 于 ， 是 用 ret 实 现 的 调用 操作 
系统 的 main 函 数 。 既 然 是 ret 调 用 ， 当 然 就 不 需要 再 
用 ret 了。 不 过 ，call 做 的 压 栈 和 跳 转 的 动作 谁 来 做 








We? 操作 系统 的 设计 者 做 了 一 个 仿 call 的 动作 ， 手 
工 编写 代码 压 栈 和 跳 转 ， 模 仿 了 call 的 全 部 动作 ， 
实现 了 调用 setup_paging 函 数 。 注 意 ， 压 栈 的 EIP 值 
并 不 是 调用 setup_paging 函 数 的 下 一 行 指令 的 地 

址 ， 而 是 操作 系统 的 main 函 数 的 执行 入 口 地 址 
_Imain。 这 样 ， 当 setup_paging 函 数 执行 到 ret 时 ， 从 
栈 中 将 操作 系统 的 main 函 数 的 执行 入 口 地 址 _main 
自动 出 栈 给 EIP,EIP 指 向 main 函 数 的 入 口 地 址 ， 实 现 
了 用 返回 指令 “调用 main 函数 。 











在 图 1-46 中 ， 将 压 入 的 main 函 数 的 执行 入 口 地 
址 弹出 给 CS: EIP， 这 人 句 话 等 价 于 CPU 开始 执行 
main 上 函数 程序 。 图 1-47 标 示 了 这 个 状态 。 


0x00000 Ox9FFFF OxFFFFF 





“Te Bet (Ox 1E25C) 
user_stack[0] user_stack[1024] 


| ESP 
main() (init/main.c, 0x664C) EIP 


OxFFFFFFFF 


| (ft 
HR 


OxFFFFF 


图 1-47 开始 执行 main 函 数 


RAE 


AA BOA 76 Wil H main K 2 ? 


学 过 C 语 言 的 人 都 知道 ， 用 C 语 言 设 计 的 程序 





都 有 一 个 main 函 数 ， 而 且 是 从 mainE 


因数 开始 执行 


的 。Linux 0.11 的 代码 是 用 C 语 言 编 写 的 。 和 奇怪 的 
和 是， 为 什么 在 操作 系统 司 动 时 先 执行 的 是 三 个 由 汇 
编 语言 与 成 的 程序 ， 然 后 才 开 始 执行 main 函 数 ， 为 








什么 不 是 像 我 们 熟知 的 C 语 言 程序 那样 ， 从 main 函 
数 开始 执行 呢 。 





通 币 ， 我 们 用 C 语 言 编写 的 程序 都 是 用 户 应 用 
程序 。 这 类 程序 的 执行 有 一 个 重要 的 特征 ， 融 是 必 
须 在 操作 系统 的 平台 上 执行 ， 也 就 是 说 ， 要 由 操作 
系统 为 应 用 程序 创建 进程 ， 并 把 应 用 程序 的 可 执行 
代码 从 硬盘 加 载 到 内 存 。 现 在 我 们 讨论 的 是 操作 系 
统 ， 不 是 普通 的 应 用 程序 ， 这 样 融 出 现 了 一 个 问 
题 : 应 用 程序 是 由 操作 系统 加 载 的 ， 操 作 系 统 该 由 
谁 加 载 呢 ? 














从 前 面 的 节 中 我 们 知道 ， 加 载 操作 系统 的 时 
候 ， 计 算 机 刚刚 加 电 ， 只 有 BIOS 程 序 在 运行 ， 而 且 
此 时 计算 机 处 在 16 位 实 模式 状态 ， 通 过 BIOS 程 序 目 
身 的 代码 形成 的 16 位 的 中 断 向 量 表 及 相关 的 16 位 的 

















HT ARS Bee, BETES TE AEE AY — Ba X 
(512 字 节 ) 的 代码 加 载 到 内 存 ，BIOS 能 主动 操作 
的 内 容 也 就 到 此 为 止 了 。 准 确 地 说 ， 这 是 一 个 约 
定 。 对 于 第 一 扇 区 代码 的 加 载 ， 不 论 是 什么 操作 系 
统 都 是 一 样 的 ， 从 第 二 悄 区 开始 ， 束 要 由 第 一 情 区 
中 的 代码 来 完成 后 续 的 代码 加 载 工 作 。 


当 加 载 工 作 完 成 后 ， 好 像 仍然 没有 立即 执行 
main 也 数 ， 而 是 打开 A20， 打 开 pe、pg， 建 并 
IDT、GDT...... 然 后 才 开 始 执 行 main 函 数 ， 这 是 什 


AE? 


原因 是 ，Linux 0.11 是 一 个 32 位 的 实时 多 任务 
的 现代 操作 系统 ，main 函 数 肯定 要 执行 的 是 32 位 的 
代码 。 编 译 操作 系统 代码 时 ， 是 有 16 位 和 32 位 不 同 
的 编译 选项 的 。 如 果 选 了 16 位 ，C 语 言 编 译 出 来 的 








代码 是 16 位 模式 的 ， 结 来 可 能 是 一 个 int 型 变量 ， 只 


有 2 字 节 ， 而 不 是 32 位 的 4 字 节 ...... 这 不 是 Linux 








0.11 想 要 的 。Linux 0.11 要 的 是 32 位 的 编译 结果 。 只 
有 这 样 才能 成 为 32 位 的 操作 系统 代码 。 这 样 的 代码 
才能 用 到 32 位 总 线 〈 打 开 A20 后 的 总 线 ) ， 才 能 用 
到 保护 模式 和 分 页 ， 才 能 成 为 32 位 的 实时 多 任务 的 
现代 操作 系统 。 








开机 时 的 16 位 实 模 式 与 main 函 数 执行 需要 的 32 
位 保护 模式 之 间 有 很 大 的 差距 ， 这 个 差距 谁 来 填 
补 ? head.s 做 的 就 是 这 项 工作 。 这 期 间 ，head 程 序 
打开 A20， 打 开 pe、pg， 上 废弃 旧 的 、16 位 的 中 断 啊 
应 机 制 ， 建 立新 的 32 位 的 IDT...….….. 这 些 工作 都 做 完 
了 ， 计 算 机 已 经 处 在 32 位 的 保护 模式 状态 了， 调用 
32 位 main 函 数 的 一 切 条 件 已 经 准备 完毕 ， 这 时 顺 理 
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Zt, Linux 0.11 内 核 启 动 的 一 个 重要 阶段 已 
经 完成 ， 接 下 来 束 要 进入 main 函 数 对 应 的 代码 了 。 





特别 需要 提示 的 是 ， 此 时 仍 处 在 关闭 中 断 的 状 
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本 章 的 内 容 主 要 分 为 两 大 部 分 。 第 一 部 分 为 加 
PETER St; 第 二 部 分 为 32 位 保护 、 分 页 模式 下 的 
main 纯 数 的 执行 做 准备 。 


从 借助 BIOS 将 bootsect.s 文 件 加 载 到 内 存 开 始 ， 
相继 加 载 了 setup.s 文 件 和 system 文 件 ， 从 而 完成 操 
作 系 统 程序 的 加 载 。 





接 下 来 设置 IDT、GDT、 页 目录 表 、 页 表 以 及 
机 器 系统 数据 ， 为 32 位 保护 、 分 页 模式 下 的 main 函 
数 的 执行 做 准备 。 


一 切 就 绪 后 ， 跳 转 到 main 函 数 执行 入 口 ， 开 始 
#47 main PA 2 


第 2 章 ” 设 备 环境 初 始 化 及 激活 进程 0 
从 现在 开始 执行 main O 函数 ! 


系统 达到 怠速 U 状态 前 所 做 的 一 切 准备 工作 
HAZ ù H a ae LEAP Be Pe Be as DA ERE” Ao IE 
各 运行 。 能 够 实现 这 一 目的 的 标准 包括 三 方面 的 内 
容 : 用 户 程序 能 够 在 主机 上 进行 运算 ， 能 够 与 外 设 
进行 交互 ， 以 及 能 够 让 用 户 以 它 为 媒介 进行 人 机 交 
互 。 本 革 讲 解 的 内 容 束 是 为 了 实现 这 个 目标 ， 对 设 
备 环境 进行 初始 化 ， 并 激活 第 一 个 进程 一 一 进程 
0. 





Linux 0.11 是 一 个 文 持 多 进程 的 现代 操作 系 
统 。 这 束 意 味 着 ， 各 个 用 户 进 程 在 运行 过 程 中 ， 似 
此 不 能 相互 干扰 ， 这 样 才能 保证 进程 在 主机 中 正常 








地 运算 。 然 而 ， 进 程 日 映 并 没有 一 个 天 然 的 “ 边 
界 ” 来 对 其 进行 保护 ， 要 靠 系 统 “ 人 为 ”地 给 它 设 计 
一 套 “ 边 界 ” 来 对 其 进行 保护 。 这 套 “ 边 界 ” 就 是 系统 
为 进程 提供 的 进程 管理 信息 数据 结构 。 进 程 管理 信 
息 数据 结构 包括 : task_struct、task[64]、GDT 等 。 
task_struct 是 每 个 进程 所 独 有 的 结构 。 它 标识 了 进 
程 的 各 项 属性 值 ， 包 括 剩 余 时 间 片 、 进 程 执行 状 
态 、 局 部 数据 描述 符 表 LDT) 和 任务 状态 描述 符 
# (TSS) 等 。task[64] 和 GDT 是 为 管理 多 进程 提供 
的 数据 结构 。task[64] 结 构 中 存储 着 系统 中 所 有 进程 
的 task_struct 指 针 。 如 果 操 作 系 统 需 要 对 多 个 进程 
加 以 比较 并 选择 ， 就 可 以 通过 遍历 task[64j 结 构 来 实 
现 。GDT 中 存储 着 一 套 针 对 所 有 进程 的 索引 结构 。 
通过 索引 项 ， 操 作 系 统 可 以 间接 地 与 每 个 进程 中 的 
LDT 和 TSS 建 立 关 系 。 
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串 行 口 、 显 示 器 、 键 盘 、 硬 盘 、 软 盘 等 硬件 进行 设 
置 ， 并 将 这 些 便 件 所 对 应 的 中 断 服 务 程序 与 IDT 相 
挂 接 ， 为 进程 0 及 其 直接 、 间 接 创 建 的 所 有 后 续 进 
程 与 外 设 沟通 构建 环境 。 


21 设置 根 设备 [2 站、 硬盘 





内 核 首 先 初 始 化 根 设 备 和 人 硬盘， 用 bootsect 中 
写 入 机 器 系统 数据 0x901FC〔( 见 1.2.3 节 ) 的 根 设备 
为 软盘 的 信息 ， 设 置 软盘 为 根 设 备 ， 并 用 起 始 自 
0x90080 的 32 字 节 的 机 硕 系 统 数 据 的 硬盘 参数 表 设 
置 内 核 中 的 硬盘 信息 drive_info。 


其 体 执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


#define DRIVE_INFO (* (struct drive info *) 0x90080) /硬盘 参数 
表 ， 参 看 机 器 系统 数据 


#define ORIG_ROOT_DEV (* (unsigned short *) Ox901FC) // 根 设 
K 


struct drive_info{char dummy[32]; }drive_info; /存放 硬盘 参数 表 的 
数据 结构 


void main (void) 
{ 


ROOT _DEV=ORIG_ROOT_DEV; /根据 bootsect 中 写 入 机 器 系统 数 
据 的 信息 设置 根 设备 为 软盘 





drive _info=DRIVE_INFO; /的 信息 ， 设 置 为 根 设备 


设置 根 设备 为 软盘 以 及 设置 硬盘 参数 表 完 成 后 
的 数据 在 内 存 中 的 位 置 如 图 2-1 所 示 。 





i Ox9FFFF OxFFFFF OQx3FFFFF OQxSFFFFF OxFFFFFF 





图 2-1 设置 根 设备 号 和 硬盘 参数 表 
[1] 全速 的 意思 就 是 操作 系统 已 经 完成 了 所 有 的 准 
备 工作 ， 随 时 可 以 响应 用 户 的 激励 。 此 处 借用 了 汽 
车 的 “ 印 速 "一 词 ， 是 为 了 更 加 形象 。 汽 车 进入 候 速 
状态 ， 就 意味 着 汽车 已 经 完全 启动 ， 只 要 驾驶 员 踩 
油门 ， 就 可 以 正常 行驶 了 。 
2] 根 设备 就 是 根 文 件 系统 所 在 的 设备 ， 详 细 内 容 











参看 第 3 革 的 加 载 根 文件 系统 一 市 。 


2.2 ”规划 物理 内 人 存 格局 ， 设 置 绥 剖 
XK. hein, EA 


接 下 来 设置 缓冲 区 、 虚 拟 盘 、 主 内 存 。 主 机 中 
的 运算 需要 CPU、 内 存 相互 配合 工作 才能 实现 ， 央 
存 也 是 参与 运算 的 重要 部 件 。 对 内 存 中 缓冲 区 、 主 
内 存 的 设置 、 规 划 ， 从 根本 上 决定 了 所 有 进程 使 用 
内 存 的 数量 和 方式 ， 必 然 会 影响 a 到 进程 在 主机 中 的 
运算 速度 。 














具体 规划 如 下 : 除 内 核 代 码 和 数据 所 占 的 内 存 
空间 之 外 ， 其 余 物 理 内 存 主要 分 为 三 部 分 ， 分 别 是 
主 内 存 区 、 绥 冲 区 和 虚拟 盘 。 主 内 存 区 是 进程 代码 
运行 的 空间 ， 也 包括 内 核 管理 进程 的 数据 结构 ， 绥 
冲 区 主要 作为 主机 与 外 设 进行 数据 交互 的 中 转 


站 ; “虚拟 盘 区 ?是 一 个 可 选 的 区 域 ， 如 果 选 择 使 用 
虚拟 盘 ， 就 可 以 将 外 设 上 的 数据 先 复 制 进 虚拟 盘 
区 ， 然 后 加 以 使 用 。 由 于 从 内 存 中 操作 数据 的 速度 
远 遍 于 外 设 ， 因 此 这 样 可 以 提高 系统 执行 效率 。 


这 里 ， 系 统 要 对 主 内 存 中 的 这 三 种 不 同性 质 的 
区 域 ， 在 大 小 、 位 置 以 及 管理 方式 方面 进行 规划 。 


先 根据 内 存 大 小 对 缓冲 区 和 主 内 存 区 的 位 置 和 
大 小 进行 如 图 2-2 所 示 的 初步 设置 。 


针对 物理 内 存 条 的 实际 大 小 ， 对 内 存 使 用 进行 不 同 的 规划 


OxFFFFF 0x3FFFFF 








0x00000| Ox1FFFFF 缓冲 区 末端 0xBFFFFF 0xFFFFFF 物理 内 存 末 端 
>16MB | | 
缓冲 区 末端 理 内 存 未 

| 物理 内 存 末端 
12~16MB | | 

| 缓冲 区 末端 物理 内 存 末端 

il 
6~12MB | 
绥 冲 区 末端 物理 内 存 末端 





a 


<6MB 


图 22 内 存 的 初步 设置 


具体 执行 代码 如 下 : 





/代码 路 径 : init/main.c: 


#define EXT MEM_ K (* (unsigned short *) 0x90002) /从 1MB 开 
始 的 扩展 内 存 CKB) 数 


ee 


memory _end= (1<<20) + (EXT_MEM_K< <10) ; /1LMB+ 扩 
展 内 存 (MB) 数 ， 即 内 存 总 数 


memory _end&=Oxfffff000; // 按 页 的 倍数 取 整 ， 忽 上 略 内 存 末 端 不 足 
一 页 的 部 分 


if (memory_end>16*1024*1024 ) 


memory _end=16*1024*1024; 


if (memory_end>12*1024*1024 ) 
buffer _memory_end=4*1024*1024; 
else if (memory_end>6*1024*1024 ) 
buffer _memory_end=2*1024*1024; 
else 

buffer _memory_end=1*1024*1024; 


main _memory_start=buffer_memory_end; /缓冲 区 之 后 束 是 主 内 存 


ee 





其 中 memory_end 为 系统 有 效 内 存 末端 位 置 。 
超过 这 个 位 置 的 内 存 部 分 ， 在 操作 系统 中 不 可 见 。 
main_memory_start 为 主 内 存 区 起 始 位 置 。 
buffer_ memory_end 为 缓冲 区 末端 位 置 。 对 于 缓冲 区 
的 起 始 位 置 ， 我 们 将 在 2.10 市 中 详细 介绍 。 





小 贴 士 


有 几 个 常用 的 左 移 、 右 移 的 数据 关系 需要 记 
住 : 


二 二 20 或 二 二 20 相 当 于 科 或 除 以 1 MB, 


二 二 12 或 二 二 12 相 当 于 乘 或 除 以 4KB 联 想到 
W), 


<< 108K > >10 4AF RRR LAI KB. 


所 以 ，1 雪 二 20 就 是 1 MB,EXT MEM K< <10 
就 是 EXT_MEM_K (扩展 内 存 的 KB 数 ) 的 字 节 
AN (0) 


23 Wee at Ze lal se 4a tb 


接 下 来 将 对 外 设 中 的 虚拟 盘 区 进行 设置 。 检 碍 
makefile 文 件 中 “虚拟 盘 使 用 标志 ”是 否 设置 ， 以 此 
确定 本 系统 是 否 使 用 了 虚拟 盘 。 我 们 设 定 本 书 所 用 
计算 机 有 16 MB 的 内 存 ， 有 虚拟 盘 ， 且 将 虚拟 盘 大 
小 设置 为 2MB。 操 作 系统 从 缓冲 区 的 末端 起 开辟 2 
MB 内 存 空间 设置 为 虚拟 盘 ， 主 内 存 起 始 位 置 后 移 2 
MB 至 虚拟 盘 的 末端 。 图 2-3 展 示 了 设置 完成 后 的 物 
理 内 存 的 规划 格局 。 





针对 物理 内 存 条 的 实际 大 小 ， 对 内 存 使 用 进行 不 同 的 规划 
OxFEFFF ”OQx3FFFFF #242 






虚报 
主 内 
物理 内 存 未 端 


时 
图 2-3 物理 内 存 规划 格 局 


Hrd init O 函数 ， 开 始 对 虚拟 盘 进 行 设 
置 ， 基 体 执行 代码 如 下 : 





/代码 路 径 : init/main.c: 


void main (void ) 


#ifdef RAMDISK 


main 


_memory_start+=rd_init (main_memory_start,RAMDISK*1024) ; 


#endif 


ee 


ee 


struct blk_dev_struct{ 
void (*request_fn) (void) ; 


struct request * current_request; 


ee 


ee 


/代码 路 径 : kemel/blk_drv/Il_rw_blk.c: /JU 可 以 理解 为 low level 
struct blk_dev_struct blk_dev[NR_BLK_DEV]={ 

{NULL,NULL}, /*no_dev*/ 

{NULL,NULL}, /*dev mem*/ 

{NULL,NULL}, /*dev fd*/ 

{NULL,NULL}, /*dev hd*/ 

{NULL,NULL}, /*dev ttyx*/ 

{NULL,NULL}, /*dev tty*/ 


{NULL, NULL }/*dev lp*/ 


ecce oo 


long rd_init (long mem_start,int length) //hd_init © 、 


floppy_init © 与 此 类 似 


int 


char * cp; 


blk _dev[MAJOR_NR].request_fn=DEVICE_REQUEST; // 挂 接 
do_rd_request () 


rd_start= (char *) mem_start; 
rd _length=length; 

cp=rd_start; 

for (i=0; i<length; i++) 
*cpt++=\0'; /初始 化 为 0 
return (length) ; 


} 





férd_init O 函数 中 ， 先 要 将 虚拟 盘 区 的 请 求 
Thi Ab FH K B¢do_rd_request () 与 图 2-4 中 的 请 求 项 也 





数控 制 结构 blk_dev[7] 的 第 二 项 挂 接 。blk_dev[7] 的 
主要 功能 是 将 某 一 类 设备 与 它 对 应 的 请 求 项 处 理 函 
数 挂钩 。 可 以 看 出 我 们 讨论 的 操作 系统 最 多 可 以 管 
理 6 类 设备 。 请 求 项 将 在 2.6 节 中 详细 解释 。 这 个 挂 
接 动作 意味 着 以 后 内 核能 够 通过 调用 do_rd_request 
函数 处 理 与 虚拟 盘 相 关 的 请 求 项 操作 。 挂 接 之 后 ， 

将 虚拟 盘 所 在 的 内 存 区 域 全 部 初始 化 为 0。 图 2-4 表 
示 了 rd_init () 函数 的 执行 效果 。 





Ox9FFFF REEEY Ox3FFFFF OxSFFFFF OxFFFFFF 
a i 


sili aN 
noes TTo KAP RR EAR A “0” 


ft: 


Poe, 7 T T 
ee | 


: be poner 


ie. 


do rd request 


图 2-4 虚拟 盘 设 置 与 初始 化 


最 后 将 虚拟 盘 区 的 长 度 值 返回 。 这 个 返回 值 将 
用 来 重新 设置 主 内 存 区 的 起 始 位 置 。 


2.4 Wee HEZ Jmem_map#J salt, 


对 主 内 存 区 起 始 位 置 的 重新 确定 ， 标 志 着 主 内 
存 区 和 缓冲 区 的 位 置 和 大 小 已 经 全 都 确定 了 ， 于 是 
系统 开始 调用 mem_init O 函数 。 先 对 主 内 存 区 的 
管理 结构 进行 设置 ， 该 过 程 如 图 2-5 所 示 。 


a“ OxOFFFF OxFFFFF Ox3FFFFF 0x5FFFFF OxFFFFFF 
si 8 8 
= 内 存 页 面 状 态 管理 
[ë] men ee pee Tes 
2 et T S 人 元 
iS t 数据 区 re 控制 一 个 页 面 的 使 用 次 数 






首先 将 使 用 次 数 
全 部 设置 成 100 


图 2-5 mem_map 初 始 化 


其 体 执行 代码 如 下 : 





/代码 路 径 : init/main.c: 


void main (void) 


ee 


ee 


#define LOW_MEM 0x100000//1 MB 
#define PAGING MEMORY (15*1024*1024 ) 


#define PAGING_PAGES (PAGING_MEMORY>>12) //15 MB 的 
BL 


#define MAP_NR (addr) ( ( (addr) -LOW MEM) >>12) 


#define USED 100 


ee 


ee 


void mem_init (long start_mem,long end_mem ) 


int i; 

HIGH _MEMORY=end_mem; 

for (i=0; i<PAGING_PAGES; i++) 

mem _map[i]=USED; 

i=MAP_NR (start_mem) ; /start_mem 为 6 MB EMAZ JA) 
end _mem-=start_mem; 

end_mem>>=12; //16 MB 的 页 数 

while (end_mem-->0 ) 


mem _map[i++]=0; 


系统 通过 mem_map[] 对 1 MB 以 上 的 内 存 分 页 进 
行 管理 ， 记 录 一 个 页 面 的 使 用 次 数 。 


mem_init ©) 函数 先 将 所 有 的 内 存 页 面 使 用 计 
数 均 设置 成 USED (100， 即 被 使 用 ) ， 然 后 再 将 主 
内 存 中 的 所 有 页 面 使 用 计数 全 部 清 零 ， 系 统 以 后 只 
把 使 用 计数 为 0 的 页 面 视 为 空间 页 面 。 





那么 为 什么 系统 对 1 MB 以 内 的 内 存 空 间 不 用 
OPE oD TIA PE? 这 是 因为 ， 操 作 系统 的 设计 
者 对 内 核 和 用 户 进 程 采 用 了 两 套 不 同 的 分 页 管理 方 
法 。 内 核 采 用 分 页 管理 方法 ， 线 性 地 址 和 物理 地 址 
是 完全 一 样 的 ， 是 一 一 映射 的 ， 等 价 于 内 核 可 以 直 
接 获 得 物理 地 址 。 用 户 进 程 则 不 然 ， 线 性 地 址 和 物 
理 地 址 壮 寞 很 大 ， 之 间 没 有 可 递 推 的 逻辑 关系 。 损 








作 系 统 设计 者 的 目的 就 是 让 用 户 进程 无 法 通过 线性 
地 址 推算 出 具体 的 物理 地 址 ， 让 内 核能 够 访问 用 户 
进程 ， 用 户 进程 不 能 访问 其 他 的 用 户 进程 ， 更 不 能 
访问 内 核 。1 MB 以 内 是 内 核 代 码 和 只 有 由 内 核 管 
控 的 大 部 分 数据 所 在 内 存 空间 ， 古 绝对 不 允许 用 户 
进程 访问 的 。1 MBE, FI EENE EHE 
用 户 进程 的 代码 、 数 据 所 在 内 存 空间 ， 所 以 采用 专 
门 用 来 管理 用 户 进程 的 分 页 管理 方法 ， 这 和 套 方 法 当 
然 不 能 用 在 内 核 上 。 详 细 内 容 请 看 第 6 革 中 的 内 存 


常理 ， 深 层次 原因 的 分 析 请 看 第 9 草 。 








2.5 Fey ADER HT ARS FE PP TE Re 





论 是 用 户 进 程 还 是 系统 内 核 都 要 经 常 使 用 中 
潜 或 过 到 很 多 异常 情况 需要 处 理 ， 如 CPU 在 参与 运 
算 过 程 中 ， 可 能 会 遇 到 除 零 错误 、 洲 出 错误 、 边 界 
检查 错误 、 缺 页 错误 ..…. 免 不 了 需要 “异常 处 理 ”。 
中 断 技 术 也 是 广泛 使 用 的 ， 系 统 调用 就 是 利用 中 断 
扩 术 实现 的 。 这 些 中 断 、 开 昌都 需要 具体 的 服务 程 
序 来 执行 。trap_init () 函数 将 中 断 、 异 常 处 理 的 
服务 程序 与 IDT 进 行 挂 接 ， 逐 步 重 建 中 断 服 务 体 
系 ， 文 持 内 核 、 进 程 在 主机 中 的 运算 。 挂 接 的 具体 
过 程 及 异 利 处 理 类 中 断 服 务 程序 在 IDT 中 所 占用 的 
位 置 如 图 2-6 所 示 。 
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总 计 48 个 异常 中 断 服务 程序 


将 “异常 中 断 ” 服 务 程序 
挂 接 在 (IDT) 上 


挂 接 后 的 状况 


证 





图 2-6 腊 各 处理 类 中 断 服 务 程 序 挂 接 


执行 代码 如 下 : 





/代码 路 径 : init/main.c: 


void main (void ) 


trap init ©) ; 


ee 


/代码 路 径 : kernel/traps.c: 


void trap_init (void) 


int i; 

set_trap_gate (0, &divide_error) ; V/ 除 零 错 误 

set_trap_gate (1, &debug) ; // 单 步调 试 

set_trap gate (2, &nmi) ; /不 可 屏蔽 中 断 

set_system_gate (3, &int3) ; /*int3-5 can be called from all*/ 
set _system_gate (4, &overflow) ; // 洲 出 

set_system_gate (5, &bounds) ; /边界 检查 错误 
set_trap_gate (6, &invalid_op) ; /无 效 指令 

set_trap_gate (7, &device_not_available) ; /无 效 设备 
set_trap_gate (8, &double_fault) ; // 双 故障 


set _trap_gate (9, &coprocessor_segment_overrun) ; // 协 处 理 器 段 


越界 
set _trap_gate (10, 
set_trap_gate (11, 
set_trap_gate (12, 
set_trap_gate (13, 
set_trap_gate (14, 
set_trap_gate (15, 


set_trap_gate (16, 


Ginvalid_TSS) ; /无 效 TSS 

& segment_not_present) ; // 段 不 存在 
&stack_segment) ; // 栈 异常 
&general_protection) ; // 一 般 性 保护 异常 
& page fault) ; // 缺 页 

&reserved) ; /保留 


& coprocessor_error) ; // 协 处 理 器 错误 


for (i=17; i<48; i++) // 都 先 挂 接 好 ， 中 断 服务 程序 函数 名 初始 


化 为 保留 


set_trap_gate (i, &reserved) ; 


set_trap_gate (45, 


&irq13) ; // 协 处 理 器 


outb_p (inb p (0x21) &Oxfb, 0x21) ; // 人 允许 IRQ2 中 断 请 求 


outb (inb p (0xA1) &Oxdf, OxA1) ; /人 允许 IRQ2 中 断 请 求 


set_trap_gate (39, 


} 


&parallel_interrupt) ; /并 口 


/代码 路 径 : include\asm\system.h: 


#define_set_gate (gate_addr,type,dpl,addr) \ 


asm ("movw%%dx，%%ax\n\t"V/ 将 edx 的 低 字 赋值 给 eax 的 低 字 





"movw%0，%%dx\n\t"V/%0 对 应 第 二 个 冒号 后 的 第 1 行 的 "i" 





"movlI%%eax，%1n\t"V/%1 对 应 第 二 个 冒号 后 的 第 2 行 的 "o" 





"movl%%edx，%2"V/%2 对 应 第 二 个 冒号 后 的 第 3 行 的 "0" 





: V/ 这 个 冒号 后 面 是 输出 ， 下 面 冒 号 后 面 是 输入 


: "i" ( (short) (0x8000+ (dpl<<13) + (type<<8) ) ) ，V/ 
立即 数 


"o" (* C (char*) (gate addr) ) ) ，V 中 断 描 述 符 前 4 个 字 节 的 
地 址 


"o" (* (4+ (char*) (gate_addr) ) ) ，V 中 断 摘 述 符 后 4 个 字 节 
的 地 址 


"da" ( Cchar*) (addr) ) , "a" (0x00080000) ) Wd" 对 应 
edx，"a" 对 应 eax 


#define set_trap_gate (n,addr) \ 


_set_gate ( &idt[n], 15, 0, addr) 





X EARI AY A AA) aot ee FE 1 1.3. ER 
过 的 中 断 描 述 符 。 为 了 便于 阅读 ， 复 制 在 下 面 ， 如 
图 2-7 所 示 。 


~“ 


un 








中 断 服务 程序 偏 移 地 址 0 


图 2-7 中断 描 述 符 


上 述 代 码 的 执行 效果 如 图 2-8 所 示 。 


cia 中 断 服务 程序 


CPU 
divide_error (void) 
ae debug (void) 
gate_addr —— idt[0] &divide_error 
idt [2 i ov k 
overflow (void) 
idt[3 i - 一 一 









gate_addr ——______—. jdt[1] 


gate_addr 








gate_addr 





图 2-8 代码 执行 效果 示意 图 


对 比 : 


set_trap_gate (0, &divide error) 


set_trap_gate (n,addr) 


_set_gate (&idt[n], 15, 0, addr) 


_set_gate (gate_addr,type,dpl,addr ) 


可 以 看 出 ，n 是 0; gate_addr 是 &idt[0]， 也 就 是 
idt 的 第 一 项 中 断 描 述 符 的 地 址 ;，type 是 15; dpl G 
述 符 特 权 级 ) FEO; addr 是 中 断 服务 程序 
divide_error (void) 的 入 口 地 址 ， 如 图 2-9 所 示 。 


set trap gate(0, &divide error) 
set trap gate(n, addr) 
_set_gate(&idt[n], 15, 0, addr) 


_set_gate(gate addr, type, dpl, addr) 


图 29 参数 对 应 示意 图 


“movw%%dx，%%ax\n\t* 是 把 edx 的 低 字 赋值 
给 eax 的 低 字 edx 是 (char*) (addr) ， 也 就 是 久 
divide error; eax 的 值 是 0x00080000， 这 个 数据 在 


head.s 中 残 提 到 过 ，8 应 该 看 成 1000， 每 一 位 都 有 意 
义 ， 这 样 eax 的 值 就 是 0x00080000+〈 Cchar *) 
Caddr) 的 低 字 ) ， 其 中 的 0x0008 是 段 选择 符 ， 含 
义 与 第 1 章 中 讲解 过 的 “jmpi 0，8” 中 的 8 一 致 。 


"movw%0，%%dx\n\t*” 是 把 (short) (0x8000+ 
(dpl<<13) + (type< <8) ) 赋值 给 dx。 别 忘 
了 ，edx 是 (char*) (addr) ， 也 就 是 & 


divide_error. 


因为 这 部 分 数据 是 按 位 拼接 的 ， 必 须 计 算 精 
确 ， 我 们 耐心 详细 计算 一 下 : 


0x8000 就 是 二 进 制 的 1000 0000 0000 0000; 


dple£00, dpl<<13%%£000 0000 0000 0000; 


type 是 15，type 三 过 8 就 是 1111 0000 0000; 








加 起 来 就 是 1000 1111 0000 0000， 这 就 是 dx 的 
值 。edx 的 计算 结果 就 是 (char *) (addr) 的 高 字 
即 & divide_error 的 高 字 +1000 1111 0000 0000. 


"movl%%eax，%1\n\t” 是 把 eax 的 值 赋 给 
* ( (char*) (gate_addr) ) ， 就 是 赋 给 idt[0] 的 前 
4 字 节 。 同 理 ，"movl9%o9%edx，9%22? 是 把 edx 的 值 赋 
给 * (4+ (char*) (gate_addr) ) ,就 是 赋 给 idt[0] 
的 前 后 4 字 节 。8 学 节 合 起 来 束 是 完整 的 idt[0]。 拼 接 
的 效果 如 图 2-10 所 示 。 











IDT 中 的 第 一 项 除 零 错误 中 断 摘 述 符 初始 化 完 
毕 ， 其 余 弄 第 处 理 服务 程序 的 中 靳 摘 述 符 初 始 化 过 
程 大 同 小 寞 。 后 续 介 绍 的 所 有 中 断 服务 程序 与 IDT 





的 初始 化 基本 上 都 是 以 这 种 方式 进行 的 。 


set_system_gate (n,addr) 与 
set_trap_gate (n,addr) 用 的 
_set_gate (gate_addr,type,dpladdr) 是 一 样 的 ZJ 
是 set_trap_gate 的 dpl] 是 0， 而 set_system_gate 的 dp] 是 
3。dpl 为 0 的 意思 是 只 能 由 内 核 处 理 ，dp] 为 3 的 意思 
是 系统 调用 可 以 由 3 特权 级 《也 就 是 用 户 特 权 级 ) 
调用 。 





有 关 特 权 级 更 深入 的 内 容 ， 请 参看 《Intel IA- 
32 Architectures Software Developer’s Manual 


Volume 3.pdf》 (可 以 到 Intel 官 方 网 站 下 载 〉。 


接 下 来 将 IDT 的 int 0x11 ~ int 0x2F 都 初始 化 ， 
将 IDT 中 对 应 的 指 癌 中 断 服 务 程序 的 指针 设置 为 





reserved (R) ào 


设置 协 处 理 器 的 IDT 项 。 


允许 主 8259A 中 断 控 制 载 的 IRQ2、IRQ3 的 中 晰 
THK 0 


设置 并 口 〈 可 以 接 打印 机 ) 的 IDT 项 。 


32 位 中 断 服 务 体系 是 为 适应 “被 动 啊 应 ”中 断 信 
号 机 制 而 建立 的 。 其 特点 、 技 术 路 线 是 这 样 的 : 一 
方面 ， 人 硬件 产生 信和 号 传达 给 8259A，8259A 对 信和 号 
进行 初步 处 理 并 视 CPU 执 行情 况 传 递 中 断 信 和 号 给 
CPU; 男 一 方面 ，CPU 如 果 没 有 接收 到 信号 ， 就 不 
源 地 处 理 正在 执行 的 程序 ， 如 果 接 收 到 信号 ， 就 打 
断 正 在 执行 的 程序 并 通过 IDT 找 到 具体 的 中 断 服务 
程序 ， 让 其 执行 ， 执 行 完 后 ， 返 回 刚才 打上 断 的 程序 





点 继续 执行 。 如 果 又 接收 到 中 断 信 号 ， 就 再 次 处 理 
HAT. 


0x8000: 1000 0000 0000 0000 
dpl << 13: 000 0000 0000 0000 
type << 8: 1111 0000 0000 


1000 1111 0000 0000 


<—edx 
ao oof e í i 





段 选 择 符 〈SELE|CTOR) 0x0008 2 
q CAX 
(char*) (addr) 即 &d |ivide_error 的 低 字 0 
"d" ((char *) (ode) (char*) (addr) 即 &d ivide_erro 的 高 字 6 
"movw %0,%%dx\n "movl %%edx,%2" 
"i" ((short) oats oe Pale "o" (*(4+(char *) 
(dpl<<13)+(type<<8))) 0 0 0 0 4 (gate_addr))) 
段 选择 符 (SELE |CTOR) 0x0008 2 
"a" (0x00080000)) "movl %%eax,%1 


movw %%dx,%%ax\n\t "o" (me *) 
1 (char*) (addr) 即 &d jivide_error 的 低 字 0 (gate_addr))) 


图 2-10 拼接 效果 


最 原始 的 设计 不 是 这 样 ， 那 时 候 CPU 每 陋 一 段 
时 间 就 要 对 所 有 便 件 进行 轮 询 ， 以 检测 它 的 工作 是 
否 完成 ， 如 果 没 有 完成 就 继续 轮 询 ， 这 样 就 消耗 了 
CPU 处 理 用 户 程 序 的 时 间 ， 降 低 了 系统 的 综合 效 
率 。 可 见 ，CPU 以 “主动 轮 询 ” 的 方式 来 处 理 信 号 是 
非常 不 划算 的 。 以 “被 动 啊 应 ”模式 蔡 代 “主动 轮 
询 ” 模 式 来 处 理 主机 与 外 设 的 VO 问题 ， 是 计算 机 历 
BEN ARR: 





2.6 ”初始 化 块 设备 请 求 项 结构 


Linux 0.11 将 外 设 分 为 两 类 : 一 类 是 块 设备 ， 
为 一 类 是 字符 设备 。 块 设备 将 存储 空间 等 分 为 右 干 
同样 大 小 的 称 为 块 的 小 存储 空间 ， 每 个 块 有 块 号 ， 
AYA IT. GEL. WE. AER. F 
FT FEA ET VOW (a BET. ALTER 


屏 命 令 行 显 示 器 部 是 字符 设备 。 





进程 要 想 与 块 设备 进行 沟通 ， 必 须 经 过 主机 内 
存 中 的 缓冲 区 。 请 求 项 管理 结构 request[32] 残 是 操 
作 系 统管 理 缓冲 区 中 的 缓冲 块 与 块 设备 上 逻辑 块 之 
间 读 写 天 系 的 数据 结构 。 


请 求 项 在 进程 与 块 设备 进行 /O 通 信 的 总 体 关 
系 如 图 2-11 所 示 。 





操作 系统 根据 所 有 进程 读 写 任务 的 轻重 绥 急 ， 
决定 缓冲 块 与 块 设备 之 间 的 读 写 操 作 ， 并 把 需要 操 
作 的 缓冲 岂 记 录 在 请 求 项 上 ， 得 到 读 写 块 设备 操作 
站 令 后 ， 只 根据 请 求 项 中 的 记录 来 决定 当前 需要 处 





理 哪 个 设备 的 哪个 馆 辑 块 。 





数据 进程 。 | 进程。 | 进程 





请 求 项 





图 2-11 总 体 关 系 示 意 


执行 代码 如 下 : 





/代码 路 径 : init/main.c: 


void main (void) 


#define NR_REQUEST 32 
struct request{ 
int dev; /*-1 if no request*/ 


int cmd; /*READ or WRITE*/ 


int errors; 

unsigned long sector; 
unsigned long nr_sectors; 
char * buffer; 

struct task_struct * waiting; 
struct buffer_head * bh; 


struct request * next; /说 明 request 可 以 构成 链表 


ee 


ee 


void blk_dev_init (void) 


int i; 


for (i=0; i<NR_REQUEST; i++) { 


request[i].dev=-1; /设置 为 空闲 
request[i].next=NULL; // 互 不 挂 接 
} 


} 


注意 : request[32] 是 一 个 由 数组 构成 的 链表 ; 
request[i].dev=-1 说 明了 这 个 请 求 项 还 没有 具体 对 应 
哪个 设备 ， 这 个 标志 将 来 会 被 用 来 判断 对 应 该 请 求 
项 的 当前 设备 是 侣 空 采 ;request[i].next=NULEL 说 明 
这 时 还 没有 形成 请 求 项 队列 。 初 始 化 的 过 程 和 效果 
如 图 2-12 所 示 。 
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| 将 request[32] 每 一 项 的 


ARREK 区 “设备 号 ” 和 “下 一 项 





-= NULL -1 NULL -1 NULL -1 NULL 
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图 2-12 初始 化 块 设备 请 求 项 结构 


2.7 与 建立 人 机 交互 界面 相关 的 外 设 
的 中 断 服 务 程序 挂 接 


Linus 在 操作 系统 源 代码 中 本 来 设计 了 
chr_dev_init © 冰 数 ， 明 显 是 要 用 这 个 函数 初始 化 
字符 设备 ， 但 我 们 可 以 看 到 这 是 一 个 空隙 数 。Linus 
叉 设 计 了 tty_init() 函数 ， 内 容 就 是 初始 化 字符 设 
备 。 有 人 解释 tty 是 teletype。 








字符 设备 的 初始 化 为 进程 与 串 行 口 (可 以 通 
信 、 连 接 鼠 标 ..….) 、 显 示 器 以 及 键盘 进行 WO 通 
信和 准备 工作 环境 ， 主 要 是 对 串 行 口 、 显 示 器 、 键 盘 
进行 初始 化 设置 ， 以 及 与 此 相关 的 中 断 服 务 程序 与 
IDT 挂 接 。 在 tty_init O 函数 中 ， 先 调用 rs_init ©) 
为 数 来 设置 串 行 口 ， 再 调用 con_init O 函数 来 设置 





EIRAS FLATT (MASON F : 





/代码 路 径 : init/main.c: 


void main (void) 


/代码 路 径 : kermel/chr_dev/tty_io.c: 
void tty_init (void) 

{ 

rs_init © ; 

con _init () 


} 


ee | 


2.7.1 对 串 行 口 进行 设置 


把 两 个 串 行 口中 断 服务 程序 与 DT 相 挂 接 ， 然 
后 根据 tty_table 数 据 结构 中 的 内 容 对 这 两 个 串 行 口 
进行 初始 化 设置 ， 包 括 设 置 线路 控制 寄存 器 的 
DLABiZ. WHA AGAIN RAS. KEDTRAI 
RTS......60a,» fù VF E8259A1 H MIRQ3AIRQ4AK 
送 中 断 请 求 。 





挂 接 的 具体 过 程 及 挂 接 后 的 效果 如 图 2-13 所 


人 小。 


执行 代码 如 下 : 
/代码 路 径 : kemel/chr_dev/serial.c: 


void rs_init (void) 


{ 


set _intr_gate (0x24, rsl_interrupt) ; /WHH{FOLAM, B25 
set_intr_gate (0x23, rs2_interrupt) ; /设置 串 行 口 2 中 断 

init (tty_table[1].read_q.data) ; /初始 化 串 行 口 1 

init (tty_table[2].read_q.data) ; /初始 化 串 行 口 2 

outb (inb_p (0x21) &OxE7, 0x21) ; /人 允许 IRQ3，IRQ4 


} 


两 个 串 行 口 中 断 处 理 程序 与 DT 的 挂 接 函 数 
set_intr_gate () 与 2.5 中 介绍 过 的 set_trap_gate () 
函数 类 似 ， 可 参看 前 面 对 set_trap_gate() 函数 的 
讲解 。 它 们 的 差别 是 set_trap_gate © 函数 的 type 是 
15〈 二 进 制 的 1111) ， 而 set_intr_gate © 的 type 古 
14《 二 进 制 的 1110) 。 






ce eas (uel: Ttty_table[1].read_q.data zg, 


: “tty_table[2].read_q.data 
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囊 行 口 设置 前 | 





图 2-13 串 行 口中 断 服务 程序 挂 接 


2.7.2 ”对 显示 玫 进 行 设置 


根据 机 器 系统 数据 提供 的 显卡 是 “ 蛙 色 ”还 
是 “彩色 ”来 设置 配套 信息 。 由 于 在 Linux 0.11 那 个 时 
代 ， 大 部 分 显卡 器 是 单 色 的 ， 所 以 我 们 假设 显卡 的 
属性 是 单 色 EGA。 那 么 显存 的 位 置 就 要 被 设置 为 
0xb0000 一 0xb8000， 索 引 寄 存 器 端口 被 设置 为 
0x3b4， 数 据 寄 存 器 端口 被 设置 为 0x3b5， 再 将 显卡 
的 属性 一 一 EGA 这 三 个 字符 ， 显 示 在 屏幕 上 。 瑟 
外 ， 再 初始 化 一 些 用 于 滚屏 的 变量 ， 其 中 包括 滚屏 
的 起 始 显 存 地 址 、 深 屏 结 束 显 存 地 址 、 最 项 端 行 号 
以 及 最 低 问 行 号 。 效 果 如 图 2-14 所 示 。 
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图 2-14 显示 器 设置 


2.7.3 对 键盘 进行 设置 


对 键盘 进行 设置 是 先 将 键盘 中 断 服 务 程序 与 
IDT 相 挂 接 ， 然 后 取消 8259A 中 对 键盘 中 断 的 屏 
贡 ， 人 允许 了 RQ1 及 送 中 断 信 号 ， 通 过 移 茶 止 键盘 工 
作 、 再 允许 键盘 工作 ， 键 盘 便 能 够 使 用 了 。 键 盘 中 
靳 处 理 程序 与 IDT 的 挂 接 函 数 set_intr_gate () 与 前 
面 讲解 过 的 set_trap_gate O 函数 类 似 ， 参 看 对 
set_trap_gate () 函数 的 讲解 。 


效果 如 图 2-15 所 示 。 
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图 2-15 键盘 设置 


执行 代码 如 下 : 





/代码 路 径 : kernel/chr_dev/console.c: 
#define ORIG_X (* (unsigned char *) 0x90000) 


#define ORIG_Y (* (unsigned char *) 0x90001 ) 


#define ORIG_VIDEO_PAGE (* (unsigned short *) 0x90004 ) 


#define ORIG_VIDEO_MODE ( (* (unsigned short *) 0x90006 ) 
& Oxff ) 


#define ORIG_VIDEO_COLS ( ( (* (unsigned short *) Ox90006) 
& Oxff00) >>8) 


#define ORIG_VIDEO_LINES (25) 

#define ORIG_VIDEO_EGA_AX (* (unsigned short *) 0x90008 ) 
#define ORIG_VIDEO_EGA_BX (* (unsigned short *) 0x9000a) 
#define ORIG_VIDEO_EGA_CX (* (unsigned short *) 0x9000c ) 
#define VIDEO_TYPE_MDA 0x10/*Monochrome Text Display*/ 
#define VIDEO_TYPE_CGA 0x11/*CGA Display*/ 


#define VIDEO_TYPE_EGAM 0x20/*EGA/VGA in Monochrome 
Mode*/ 


#define VIDEO_TYPE_EGAC 0x21/*EGA/VGA in Color Mode*/ 
#define NPAR 16 


void con_init (void) 


据 


register unsigned char a; 

char * display_desc="????"; 

char * display_ptr; 

video num _columns=ORIG VIDEO COLS; /参看 机 器 系统 数据 
video _size_row=video_num_columns*2; 

video _num_lines=ORIG_VIDEO_LINES; 

video __page=ORIG_VIDEO_PAGE; /参看 机 器 系统 数据 

video _erase_char=0x0720; 


if (ORIG_VIDEO_MODE==7 ) /*Is this a monochrome display?*/ 


video _mem_start=0xb0000; 
video _port_reg=0x3b4; 
video _port_val=0x3b5; 


if C (ORIG VIDEO EGA BX &Oxff) ! =0x10) /参看 机 器 系统 数 


video _type=VIDEO_TYPE_EGAM; 


据 


video _mem_end=0xb8000; 


display _desc="EGAm"; 


else 


video _type=VIDEO_TYPE_MDA; 
video _mem_end=0xb2000; 
display _desc="*MDA"; 


} 


else/*If not,it is color.*/ 


video _mem_start=0xb8000; 
video _port_reg=0x3d4; 
video _port_val=0x3d5; 


if C (ORIG VIDEO EGA BX &Oxff) ! =0x10) /参看 机 器 系统 数 


video _type=VIDEO_TYPE_EGAC; 
video _mem_end=Oxbc000; 


display _desc="EGAc"; 


else 


video _type=VIDEO_TYPE_CGA; 
video _mem_end=0xba000; 
display _desc="*CGA"; 


} 


/*Let the user known what kind of display driver we are using*/ 
display _ptr= ( (char *) video_mem_start) +video_size_row-8; 
while (*display_desc ) 

{ 


*display_ptr++=*display_desc++; 


display _ptr++; 

} 

/*Jnitialize the variables used for scrolling (mostly EGA/VGA ) */ 
origin=video_mem_start; 

scr __end=video_mem_start+video_num_lines * video_size_row; 
top=0; 

bottom=video_num_lines; 

gotoxy (ORIG_X,ORIG_Y) ; /参看 机 器 系统 数据 


set_trap_gate (0x21, &keyboard_interrupt) ; VR EEA tit, & 
看 2.5 节 


outb_p (Cinb p (0x21) &Oxfd, 0x21) ; /取消 对 键盘 中 断 的 屏 
We, ICVFIRQI 


a=inb_p (0x61) ; 
outb _p (aļ0x80, 0x61) ; /禁止 键 往 工作 


outb (a, 0x61) ; /再 允许 键盘 工作 





2.8 开机 月 动 时 间 设 置 


开机 启动 时 间 是 大 部 分 与 时 间 相 关 的 计算 的 基 
础 。 操 作 系 统 中 一 些 程 序 的 运算 需要 时 间 参 数 ， 很 
多 事务 的 处 理 也 都 要 用 到 时 间 ， 比 如 文件 修改 的 时 
间 、 文 件 最 近 访 问 的 时 间 、i 节 点 自身 的 修改 时 间 
等 。 有 了 开机 局 动 时 间 ， 其 他 时 间 就 可 据 此 推算 出 
K 0 





具体 执行 步骤 是 : CMOS 是 主板 上 的 一 个 小 存 
储 芯 片 ， 系 统 通过 调用 time_init O 函数 ， 先 对 它 
上 面 记 录 的 时 间 数 据 进行 采集 ， 提 取 不 同等 级 的 时 
间 要 素 ， 比 如 秒 (time.tm_sec) 、 分 
(time.tm_min) 、 年 〈time.tm_year) 等 ， 然 后 对 
这 些 要 素 进行 整合 ， 并 最 终 得 出 开机 局 动 时 间 


(startup_time) 。 


执行 代码 如 下 : 





/代码 路 径 : init/main.c: 


void main (void) 


#define CMOS READ (addr) ({V/ 读 CMOS 实 时 时 钟 信息 


outb _p (Ox80jaddr, 0x70) ; W0x80laddr 读 CMOS 地 址 ，0x70 写 端 


inb_p (0x71) ; V0x71 读 端口 
}) 


#define BCD_TO_BIN (val) ( (val) = ( (val) &15) + 
( (val) >>4) *10) /十 进 制 转 二 进 制 


static void time_init (void) 


struct tm time; 

do{ 

time.tm_sec=CMOS_READ (0) ; /当前 时 间 的 秒 值 ， 以 下 类 推 
time.tm_min=CMOS_READ (2) ; 
time.tm_hour=CMOS_READ (4) ; 
time.tm_mday=CMOS_READ (7) ; 
time.tm_mon=CMOS_READ (8) ; 
time.tm_year=CMOS_READ (9) ; 

}while (time.tm sec! =CMOS READ (0) ) ; 
BCD _TO_BIN (time.tm_sec) ; 

BCD _TO_BIN (time.tm_min) ; 

BCD _TO_BIN (time.tm_hour) ; 

BCD _TO_BIN (time.tm_mday) ; 

BCD _TO_BIN (time.tm_mon) ; 


BCD _TO_BIN (time.tm_year) ; 


time.tm_mon--; 


startup _time=kernel_mktime (&time) ; /开机 时 间 ， 从 1970 年 1 月 1 
日 0 时 计算 


} 

/代码 路 径 : include\asm\io.h: VRAC mE trap_inithy yt% 
#define outb_p (value,port) V/ 将 value 写 到 port 

__asm__ ("outb%%al, %%dx\n"\ 

"\timp 1fn"V/ijmp 到 下 面 的 第 一 个 1: 处 ， 目 的 是 延迟 

"1: \tjmp 1f\n"\ 

"1: ": "a" Cvalue) , "d" Cport) ) 

#define inb_p (port) ({\ 


unsigned char_v; \ 


__asm_ volatile ("inb%%dx，%%al\n"V/volatile， 禁 止 编译 器 优化 
下 列 代 码 


"\timp 1f\n"V/%EIR 
"1; \tjmp 1f\n"\ 


"L: ": "=a" (Cw): "d" (port) FaN 


}) 


计算 过 程 及 开机 局 动 时 间 在 内 存 中 的 存储 位 置 
如 图 2-16 所 示 。 
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图 2-16 开机 局 动 时 间 设 置 


2.9 初始 化 进程 0 


进程 0 是 Linux 操 作 系 统 中 运行 的 第 一 个 进程 ， 
也 是 Linux 操 作 系 统 父 子 进程 创建 机 制 的 第 一 个 父 
进程 。 下 面 讲解 的 内 容 对 进程 0 能 够 在 主机 中 正常 
运算 的 影响 最 为 重要 和 深远 ， 主 要 包含 如 下 三 方面 
的 内 容 。 





1) 系统 先 初始 化 进程 0。 进 程 0 管理 结构 
task_struct 的 母 本 Cinit_task={INIT_TASK, }) 已 
经 在 代码 设计 阶段 事先 设计 好 了 ， 但 这 并 不 代表 进 
程 0 已 经 可 用 了 ， 还 要 将 进程 0 的 task_struct 中 的 
LDT、TSS 与 GDT 相 挂 接 ， 并 对 GDT、task[64] 以 及 
与 进程 调度 相关 的 寄存 器 进行 初始 化 设置 。 


2) Linux 0.11 作 为 一 个 现代 操作 系统 ， 其 最 重 











要 的 标志 就 是 能 够 文 持 多 进程 轮流 执行 ， 这 要 求 进 
时 具 备 参与 多 进程 轮 询 的 能 力 。 系 统 这 里 对 时 钟 中 
汤 进 行 设置 ， 以 便 在 进程 0 运行 后 ， 为 进程 0 以 及 后 
续 由 它 和 直接、 间接 创建 出 来 的 进程 能 够 参与 轮转 丙 
定 基 础 。 


3) 进程 0 要 有 具备 处 理 系统 调用 的 能 力 。 每 个 进 
程 在 运算 时 都 可 能 需要 与 内 核 进行 交互 ， 而 交互 的 
器 口 束 是 系统 调用 程序 。 系 统 通 过 函数 
set_system_gate 将 system_call 与 IDT 相 挂 接 ， 这 样 进 
程 0 就 具备 了 处 理 系统 调用 的 能 力 了。 这 个 
system_call 束 是 系统 调用 的 总 入 口 。 





进程 0 只 有 具备 了 以 上 三 种 能 力 才能 保证 将 来 
在 主机 中 正常 地 运行 ， 并 将 这 些 能 力 遗 传 给 后 续 建 
并 的 进程 。 








这 三 点 的 实现 都 是 在 sched init © 函数 中 实现 





具体 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


ee 


union task_union{//task_struct 与 内 核 栈 的 共用 体 


struct task_struct task; 


char stack[PAGE_SIZE]; /PAGE_SIZE 是 4 KB 
}; 


static union task_union init_task={INIT_TASK, }; // 进 程 0 的 
task_ struct 


ee 


/初始 化 进程 槽 task[NR_TASKS] 的 第 一 项 为 进程 0， 即 task[0] 为 进程 
0 占用 


struct task_struct * taskk[NR_TASKS]={& (init task.task) , }; 


void sched_init (void) 


int i; 

struct desc_struct * p; 

if (sizeof (struct sigaction) ! =16) 

panic ("Struct sigaction MUST be 16 bytes") ; 


set_tss_desc (gdt+FIRST_TSS_ENTRY, & 
(init_task.task.tss) ) ; /设置 TSS0 


set_Idt_desc (gdt+FIRST_LDT_ENTRY, & 
(init_task.task.Idt) ) ; /设置 LDT0 


p=gdt+2+FIRST_TSS_ENTRY; // 从 GDT 的 6 项 ， 即 TSS1 开 始 向 上 全 
部 清 零 ， 并 且 将 进程 槽 从 


for (i=1; i<NR_TASKS; i++) {//1 往 后 的 项 清空 。0 项 为 进程 0 所 
用 


task[iJ=NULL; 
p->a=p->b=0; 
PT+ 十 ; 


p->a=p->b=0; 


/*Clear NT,so that we won't have troubles with that later on*/ 
__asm__ ("pushfl; andl$Oxffffbfff, (©%esp) ; popfl") ; 
ltr (0) ; /重要 ! 将 TSS 挂 接 到 TR 寄 存 器 

lldt (0) ; /重要 ! 将 LDT 挂 接 到 LDTR 寄 存 器 


outb_p (0x36, 0x43) ; /*binary,mode 3，LSB/MSB,ch 0*/// 设 置 定 
时 器 


outb_p (LATCH&Oxff, 0x40) ; /*LSB*W/ 每 10 毫 秒 一 次 时 钟 中 断 


outb (LATCH>>8, 0x40) ; /*MSB*/ 


set _intr_gate (0x20, &timer_interrupt) ; /重要 ! 设置 时 钟 中 断 ， 
进程 调度 的 基础 


outb (Cinb p (0x21) &~0x01, 0x21) ; /人 允许 时 钟 中 断 


set _system_gate (0x80, &system_call) ; /重要 ! 设置 系统 调用 总 
A 


} 
/代码 路 径 : include\linux\sched.h: ////fk AY In EA trap_inith i+ 


#define FIRST_TSS_ ENTRY 4// 参 看 图 2-15 中 GDT 的 4 项 ， 即 TSS0 入 
口 


#define FIRST LDT ENTRY (FIRST TSS_ENTRY+1) /同上 ，5 项 
即 LDT0 入 口 


#define_TSS (n) ( ( ( Cunsigned long) n) <<4) + 
(FIRST_TSS_ENTRY<<3) ) 


#define_LDT (n) ( ( ( (unsigned long) n) <<4) + 
(FIRST_LDT_ENTRY< <3) ) 


#define ltr (n) asm ("ltr%%ax": "a" (_TSS (n) ) ) 


#define lldt (n) asm ("Ildt%%ax": "a" ( LDT (n) ) ) 


ee 


/代码 路 径 : include\asm\system.h: 


ee 


#define set_intr_gate (n,addr) \ 
_set_gate (&idt[n], 14, 0, addr) 
#define set_trap_gate (n,addr) \ 
_set_gate (&idt[n], 15, 0, addr) 
#define set_system_gate (n,addr) \ 
_set_gate (&idt[n], 15, 3, addr) 


ee 


#define_set_tssldt_desc (n,addr,type) VRAC 4a @trap_init HVE 
释 


asm ("movw$104，%1n\t"V/ 将 104， 即 1101000 存 入 描述 符 的 
第 1、2 字 节 


"movw%%ax，%2\n\t"V/ 将 tss 或 ldt 基 地 址 的 低 16 位 存 入 描述 符 的 第 
3, 4349 


"rorl$16，%%eax\n\t"V/ 循 环 右 移 16 位 ， 即 高 、 低 字 互 换 





"movb%%al，%3\n\t"V/ 将 互 换 完 的 第 1 字 节 ， 即 地 址 的 第 3 字 节 存 入 
第 5 字 节 





"movb$"type"，%4\n\t"V/ 将 0x89 或 0x82 存 入 第 6 字 节 





"movb$0x00，%5n\t"V/ 将 0x00 存 入 第 7 字 节 





"movb9%9%6ah，9%6NNt"V/ 将 互 换 完 的 第 2 字 节 ， 即 地 址 的 第 4 字 节 存 入 
第 8 字 节 


"rorl$16，%%eax"V/ 复 原 eax 


: "a" Caddr) , "m" (* (n) ) , "m" (* (n+2) ) , "m" (* (n+4. 


"m" (* (nt5) ) , "m" CMH 73 "m" C* (n+7) ) \ 
Wm" (* Cn) ) 是 gdt 第 n 项 描述 符 的 地 址 开始 的 内 存单 元 


Wm" C (n+2) ) 是 gdt 第 n 项 描述 符 的 地 址 同上 第 3 字 节 开始 的 内 
存单 元 


/其 余 依 此 类 推 
) 
/m: gdt 的 项 值 ，addr: tss 或 dt 的 地 址 ，0x89 对 应 tss，0x82 对 应 ldt 


#define set tss desc (n,addr) _set_tssldt_desc ( ( (char *) 
(n) ) , addr, "0x89") 


#define set_Idt_desc (n,addr) _set_tssldt_desc ( ( (char *) 
(n) ) , addr, "0x82") 


/代码 路 径 : include/linux/sched.h: 


struct tss_struct{ 


long back_link; /*16 high bits zero*/ 
long esp0; 

long ss0; /*16 high bits zero*/ 
long esp1; 

long ssl; /*16 high bits zero*/ 
long esp2; 

long ss2; /*16 high bits zero*/ 
long cr3; 

long eip; 

long eflags; 

long eax,ecx,edx,ebx; 

long esp; 

long ebp; 

long esi; 

long edi; 

long es; /*16 high bits zero*/ 


long cs; /*16 high bits zero*/ 


long ss; /*16 high bits zero*/ 

long ds; /*16 high bits zero*/ 

long fs; /*16 high bits zero*/ 

long gs; /*16 high bits zero*/ 

long ldt; /*16 high bits zero*/ 

long trace_bitmap; /*bits: trace 0, bitmap 16-31*/ 
struct i1387_struct i387; 

is 

struct task_struct{ 

/*these are hardcoded-don't touch*/ 

long state; /*-1 unrunnable, 0 runnable, œQ stopped*/ 
long counter; 

long priority; 

long signal; 

struct sigaction sigaction[32]; 

long blocked; /*bitmap of masked signals*/ 


/*various fields*/ 


int exit_code; 

unsigned long start_code,end_code,end_data,brk,start_stack; 
long pid,father,pgrp,session, leader; 
unsigned short uid,euid,suid; 

unsigned short gid,egid,sgid; 

long alarm; 

long utime,stime,cutime,cstime,start_time; 
unsigned short used_math; 

/*file system info*/ 

int tty; /*-1 if no tty,so it must be signed*/ 
unsigned short umask; 

struct m_inode * pwd; 

struct m_inode * root; 

struct m_inode * executable; 

unsigned long close_on_exec; 

struct file * filp[NR_OPEN]; 


/*ldt for this task 0-zero 1-cs 2-ds & ss*/ 


struct desc_struct ldt[3]; 

/*tss for this task*/ 

struct tss_struct tss; 

上 

/# 进 程 0 的 task_struct 

*INIT_TASK is used to set up the first task table,touch at 
*your own risk! .Base=0, limit=Ox9ffff (=640kB ) 
*/ 

#define INIT_TASK\ 

/*state etc*/{0，15，15，V/ 就 绪 态 ，15 个 时 间 片 
/*signals*/0,{{}, }, 0, \ 

/*ec,brk...... */0, 0, 0, 0, 0, 0, \ 

/*pid etc..*/0, -1, 0, 0, 0, V/#EFESO 

/*uid etc*/0, 0, 0, 0, 0, 0, \ 

/*alarm*/0, 0, 0, 0, 0, 0, \ 

/*math*/0, \ 


/*fs info*/-1, 0022, NULL,NULL,NULL, 0, \ 


/*filp*/{NULL, }, \ 

{\ 

{0, 0}, \ 

/*\dt*/{Ox9f, OxcOfa00}, \ 
{Ox9f, OxcOf200}, \ 

bA 


/*tss*/{0, PAGE_SIZE+ (long) &init_task, 0x10, 0, 0, 0, 0, 
(Jong) &pg_dir, \ 


0，0，0，0，0，0，0，0，V/efags 的 值 ， 决 定 了 dli 这 类 指令 只 能 在 
0 特权 级 使 用 


0, 0, 0x17, 0x17, 0x17, 0x17, 0x17, 0x17, \ 


_LDT (0) , 0x80000000, \ 





2.9.1 初始 化 进程 0 





sched_init 函 数 比较 难 理 解 的 是 下 面 两 行 : 


set_tss_desc (gdt+FIRST_TSS_ENTRY, & 
(init_task.task.tss) ) ; 


set _Idt_desc (gdt+FIRST_LDT_ENTRY;, & 
(init_task.task.Idt) ) ; 


PAT RASA FA it ee eR A 2-17 22 SLAY AE 
在 GDT 中 初始 化 进程 0 所 占 的 4、5 两 项 ， 即 初始 化 
TSS0O 和 LDT0。 
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进程 0 的 LDT 










进程 0 的 TSS 
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fs; 
gs; 

ldt; 
trace_bitmap; 
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图 2-17 GDT、LDT、TSS 关 系 示 意图 


另外 ， 要 拼 出 图 2-18 所 示 的 结构 。 我 们 以 TSS0 
为 例 ， 参 看 源 代 人 码 中 的 注释 ， 可 以 绘 出 图 2-19。 
LDTO 类 似 。 


段 描述 符 





保留 
” 
D A 
基地 址 31:24 G / O v| BRPRIK19:16 
B L 
D 
P P S 类 型 基地 址 23:16 
L 
基地 址 15:0 
段 限 长 15:0 








图 2-18 ”上段 描述 符 结 构图 


对 比 源 代码 、 注 释 和 图 ， 可 以 看 出 ， 
movw$104，%1 是 将 104 赋 给 了 上 段 限 长 15: 0 的 部 
分 ; 粒度 G 为 0， 说 明 限 长 就 是 104 字 节 ， 而 TSS 除 
去 struct i387_struct i387 后 长 度 正好 是 104 字 节 。 
LDT 是 3x8=24 字 节 ， 所 以 104 字 节 限 长 够 用 。TSS 
的 类 型 是 0x89， 即 二 进 制 的 10001001， 可 以 看 出 
movb$'"type"，9%4 在 给 type 赋 值 1001 的 同时 ， 顺 便 


将 P、DPL、S 字 段 都 赋值 好 了 。 同 理 ， 
movb$0x00，%5 在 给 段 限 长 19: 16 部 分 赋值 0000 的 
同时 ， 顺 便 将 G、D/B、 保 留 、AVL 字 上 段 都 赋值 好 
ve 









TSSO 
movb %%ah, %6 一 一 TSS 的 基地 址 31:24 00000000| 一 movb $0x00, %5 
movb $"type", %4 一 |110 0|0|1 0 0 1| TSS 的 基地 址 23:16 |— Zor] $16, Noax 
movw %%ax, %2 — TSS 的 基地 址 15:0 
movw $104,%1 —=|0 0 00000001101000 








图 2-19 TSS0 结 构图 


进程 0 的 task_struct 是 由 操作 系统 设计 者 事先 写 
好 的 ， 就 是 sched.h 中 的 INIT_TASK (参看 上 面相 关 
源 代 码 和 注释 ， 其 结构 示意 见 图 2-20) ， 并 用 


INIT_TASK 的 指针 初始 化 task[64] 的 0 项 。 


union task_union 
struct task_struct ta 
char stack[PAGE “ote 


+ 


stack (4 KB, 正好 一 页 ) 


init task 
(task union) 





(956 B) 
INIT_TASK 指 针 
这 个 栈 是 内 核 代码 使 用 的 
是 精心 测算 好 的 ， 内 核 代 
压 栈 绝对 不 会 器 盖 task_struct 


图 2-20 task union 结构 示意 网 


sched init () 函数 接 下 来 用 for 循 环 将 task[64] 
除 进程 0 占用 的 0 项 外 的 其 余 63 项 清空， 同时 将 GDT 
的 TSS1、LDT1 往 上 的 所 有 表 项 消 零 ， 效 果 如 图 2- 
21 所 示 。 


初始 化 进程 0 相关 的 管理 结构 的 最 后 一 步 是 非 


第 重要 的 一 步 ， 是 将 TR 寄存 器 指 癌 TSS0、LDTR 窜 





存 器 指向 LDT0， 这 样 ，CPU 就 能 通过 TR、LDTR 寄 


存 器 找到 进程 0 的 TSS0、LDT0， 也 能 找到 一 切 和 进 
程 0 相关 的 管理 信息 。 
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图 2-21 进程 相关 事务 初始 化 设置 


2.9.2 WEIN Eph r 








接 下 来 就 对 时 钟 中 断 进行 设置 。 时 钟 中 断 是 进 
程 0 及 其 他 由 它 创 建 的 进程 轮转 的 基础 。 对 时 钟 中 
业 进 行 设置 的 过 程 具体 分 为 如 下 三 个 步 又 。 


1) 对 支持 轮 询 的 8253 定 时 器 进行 设置 。 这 一 
步 操 作 如 图 2-20 中 的 第 一 步 所 示 ， 其 中 LATCH 最 关 
键 。LATCH 是 通过 一 个 宏 定义 的 ， 通 过 它 在 


sched.c 中 的 定义 “#define 











LATCH (1193180/HZ) ”， 即 系统 每 10 毫 秒 发 生 一 
UR ERY EF FB DT o 





2) 设置 时 钟 中 断 ， 如 网 2-22 中 的 第 二 步 所 
ZR, timer_interrupt () KAER, ÆRE epp 
汤 时 ， 系 统 就 可 以 通过 IDT 找 到 这 个 服务 程序 来 进 


行 具体 的 处 理 。 





3) 将 8259A 心 片 中 与 时 钟 中 断 相 关 的 屏蔽 但 打 
开 ， 时 钟 中 断 就 可 以 产生 了 。 从 现在 开始 ， 时 钟 中 
断 每 /1100 秒 就 产生 一 次 。 由 于 此 时 处 于 “关中 断 ” 状 
态 ，CPU 并 不 啊 应 ， 但 进程 0 已 经 具备 参与 进程 轮 
转 的 潜能 。 








2.93 ”设置 系统 调用 总 入 口 


将 系统 调用 处 理 函 数 system_call 与 int 0x80 中 断 
描述 符 表 挂 接 。system_call 是 整个 操作 系统 中 系统 
调用 软 中 断 的 总 入 口 。 所 有 用 户 程 序 使 用 系统 调 
用 ， 产 生 int 0x80 软 中 断后 ， 操 作 系 统 都 是 通过 这 
个 总 入 口 找 到 具体 的 系统 调用 函数 。 该 过 程 如 图 2- 
23 所 示 。 
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服务 程序 与 IDT 的 第 传递 LATCH 等 数据 


0x20 项 进行 挂 接 第 一 步 : 对 时 钟 中 断 进 行 设置 
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以 及 8253 设 置 后 


时 钟 中 断 程 序 挂 接 
以 及 8253 设 置 前 
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图 2-22 ”时钟 中 断 设置 


OxFFFFFF 





ARARNAR tem_call 
与 IDT 的 第 0x 80 项 相 挂 接 系统 调用 函数 加 载 后 


"i AR 


系统 调用 函数 加 载 前 ， 





图 2-23 系统 调用 服务 程序 挂 接 


系统 调用 函数 是 操作 系统 对 用 户 程 序 的 基本 文 
持 。 在 操作 系统 中 ， 依 托 人 硬件 提供 的 特权 级 对 内 核 
进行 你 护 ， 不 允许 用 户 进 程 直接 访问 内 核 代 码 。 但 
进程 有 大 量 的 像 读 盘 、 创 建 子 进程 之 类 的 具体 事务 
处 理 需 要 内 核 代码 的 文 持 。 为 了 解决 这 个 帮 盾 ， 操 
作 系 统 的 设计 者 提供 了 系统 调用 的 解决 方案 ， 提 供 


一 套 系统 服务 接口 。 用 户 进 程 只 要 想 和 内 核 打 区 

道 ， 就 调用 这 套 接 口 程序 ， 之 后 ， 束 会 立即 引 肥 int 
0x80 软 中 新 ， 后 面 的 事情 就 不 需要 用 户 程序 管 了 ， 

而 是 通过 另 一 条 执行 路 线 一 一 由 CPU 对 这 个 中 断 信 
号 响应， 翻转 特权 级 〈 从 用 户 进 程 的 3 特权 级 翻转 
到 内 核 的 0 特权 级 ) ， 通 过 IDT 找 到 系统 调用 端口 ， 
调用 具体 的 系统 调用 函数 来 处 理事 务 ， 之 后 ， 青 

iret 翻 转 回 到 进程 的 3 特权 级 ， 进 程 继 续 执 行 原来 的 
逻辑 ， 这 样 矛 盾 束 解决 了 。 








2.10 ”初始 化 缓冲 区 管理 结构 


绥 冲 区 是 内 存 与 外 设 〈( 如 人 硬盘 ， 以 后 以 鲁 盘 为 
例 ) 进行 数据 交互 的 媒介 。 内 和 存 与 便 盘 最 大 的 区 列 
在 于 ， 硬 盘 的 作用 仅仅 是 对 数据 信息 以 很 低 的 成 本 
做 大 量 数据 的 断 电 保存 ， 并 不 参与 运算 〈 因 为 CPU 
无 法 到 硬盘 上 进行 寻 址 ) ， 而 内 存 除 了 需要 对 数据 
进行 保存 以 外 ， 更 重要 的 是 要 与 CPU、 总 线 配合 进 
行 数据 运算 。 绥 冲 区 则 介 于 两 者 之 间 ， 它 既 对 数据 
信息 进行 保存 ， 也 能 够 参与 一 些 像 得 找 、 组 织 之 类 
的 间接 、 辅 助 性 运算 。 有 了 缓冲 区 这 个 媒介 以 后 ， 
对 外 设 而 言 ， 它 仅 需要 考虑 与 缓冲 区 进行 数据 交互 
是 人 否 符 合 要 求 ， 而 不 需要 考虑 内 存 如 何 使 用 这 些 交 
互 的 数据 ;对 内 存 而 言 ， 它 也 仪 需要 考虑 与 缓冲 区 
交互 的 条 件 是 售 成 熟 ， 而 不 需要 关心 此 时 外 设 对 组 








冲 区 的 交互 情况 。 两 者 的 组 织 、 管 理 和 协调 将 由 操 
作 系统 统一 操作 。 


操作 系统 通过 hash_table[NR_HASHI]、 
buffer_head 双 回环 链表 组 成 的 复杂 的 哈 布 表 管 理 组 
HX 。 


操作 系统 通过 调用 buffer init O 函数 对 绥 冲 
区 进行 设置 ， 执 行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


fEbuffer_init () 函数 里 ， 从 内 核 的 末端 及 组 
冲 区 的 末端 同时 开始 ， 方 向 相对 增长 、 配 对 地 做 出 
buffer_head、 绥 冲 块 ， 直 到 不 足 一 对 buffer_head、 
缓冲 块 。 在 第 2 章 开 始 时 设 定 的 内 存 格 局 下 ， 有 
3000 多 对 buffer_head、 绥 冲 块 ，buffer_head 在 低地 

Liking, IPERE rey He HE i o 


将 buffer_head 的 成 员 设 备 号 b_ dev、 引 用 次 数 
b_count、“ 更 新 ”标志 b_uptodate、“ 脏 ”标志 
b_dirt、“ 锁 定 ” 标 志 b_lock 设 置 为 0。 如 图 2-24 所 
示 ， 将 b_data 指 针 指 回 对 应 的 缓冲 块 。 利 用 
buffer_headf‘Jb_prev_free. b_next_free, 4FTAHY 
buffer_head 形 成 双 问 链表 。 使 free_list 指 问 第 一 个 
buffer_head， 并 利用 free_list 将 buffer_head 形 成 双 癌 
链表 链接 成 双 回 环 链表 ， 如 网 2-25 所 示 。 


TE 2-26 TAB AT AN I AER. EKER 
统 内 核 的 部 分 ， 多 出 了 一 其 用 黑色 表示 的 内 存 区 
域 ， 那 里 面 存储 的 融 是 缓冲 区 管理 结构 。 由 于 它 管 
理 着 3000 多 个 缓冲 块 ， 因 此 它 占用 的 内 存 空间 的 大 
小 ， 与 内 核 几 乎 去 不 多 。 图 2-26 中 也 对 空 几 表 的 双 
器 链表 结构 给 出 了 形象 的 说 明 。 














图 2-24 初始 化 示意 图 a 




































































hash_table 
N N Wi anog N N N N 
N 
i ER N 
FP BEA 
N 
| Ll | 
| N N N see ees eee eee N N | N N 
N#aRcount 40 NÆFRNULL 


图 2-25 初始 化 示意 图 b 


最 后 ， 对 hash_table[307] 进 行 设置 ， 将 
hash_table[307] 的 所 有 项 全 部 设置 为 NULL， 如 图 2- 
26 第 二 步 所 示 。 


0000 Ox9FFFF OxFFFFF OQx3FFFFF OQxSFFFFF 
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; 第 一 步 : 对 空 阴 表 进 行 设置 
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图 2-26 初始 化 缓冲 区 管理 结构 


对 应 的 代码 如 下 : 





/代码 路 径 : fs/buffer.c: 
struct buffer head * start_buffer= (struct buffer_head *) &end; 


struct buffer_head * hash_table[ NR_HASH]; 


static struct buffer_head * free_list; 
void buffer_init (long buffer_end ) 
{ 

struct buffer_head * h=start_buffer; 
void * b; 

int i; 

if (buffer_end==1< <20) 

b= (void *) (640*1024) ; 

else 

b= (void *) buffer_end; 


ay boy FIM Beh AY eR eg A pe Hg Raa, BEV TE 
buffer head、 绥 冲 块 各 一 个 


/忽略 剩余 不 足 一 对 buffer head、 绥 冲 块 的 空间 
while ( (b-=BLOCK_SIZE) >= ( (void*) (Ch+1) ) ) { 
h->b_dev=0; 


h->b_dirt=0; 


h->b_count=0; 
h->b_lock=0; 
h->b_uptodate=0; 
h->b_wait=NULL; 


h->b_next=NULL; /这 两 项 初始 化 为 空 ， 后 续 的 使 用 将 与 
hash_table 挂 接 


h->b_prev=NULL; 

h->b_data= (char *) b; /每 个 buffer head 关联 一 个 绥 冲 块 
h->b_prev_free=h-1; /这 两 项 使 buffer_head 分 别 与 前 、 
h->b_next free=h+1; // 后 buffer head 挂 接 ， 形 成 双 辐 链表 
h++; 

NR _BUFFERS++; 

if (b== (void *) 0x100000) // 避 开 ROMBIOS & VGA 


b= (void *) O0xA0000; 


h--; 


free list=start_ buffer，VWfree_ list 指向 第 一 个 buffer_ head 


free _list-->>b_prev_free=h; //{#buffer_head XX m] #4 7 
h-> 之 b_next free=free_list;，V/ 形 成 双向 环 链表 

for (i=0; i<NR_HASH; i++) /清空 hash_table[307] 
hash _table[iJ=NULL; 


} 


注意 看 代码 中 struct buffer_head * h=start_buffer 
这 一 行 。 这 一 行 中 的 start_buffer 确 定 了 绥 冲 区 的 起 
始 位 置 ， 这 也 就 回答 了 2.2 节 中 关于 缓冲 区 起 始点 位 
置 的 这 个 问题 。 它 是 在 buffer.c 中 定义 的 : 








struct buffer_head * start buffer= (s truct buffer head *) &end; 


Xende AAAS AC mE. ERI a 
写 阶段 ， 设 计 者 事先 较 难 准确 估算 这 个 地 址 ， 于 是 
就 在 内 核 模 块 链接 期 间 设 置 end 这 个 值 ， 然 后 在 这 





里 使 用 。 


2.11 KIIRE E 


硬盘 的 初始 化 为 进程 与 硬盘 这 种 块 设备 进行 
IO 通信 建立 了 环境 基础 。 


fEhd_init O 函数 中 ， 将 硬盘 请 求 项 服务 程序 
do_hd_request ©) 与 blk_dev 控 制 结构 相 挂 接 ， 人 硬盘 
与 请 求 项 的 交互 工作 将 由 do_hd_request © 函数 来 
处 理 ， 然 后 将 硬盘 中 断 服务 程序 hd_interrupt ©) 与 
IDT 相 挂 接 ， 最 后 ， 复 位 主 8259A int2 的 屏蔽 位 ， 允 
许 从 片 发 出 中 断 请 求 信 号 ， 复 位 硬盘 的 中 断 请 求 屏 
W CEMRE) ， 人 允许 硬盘 控制 器 发 送 中 断 请 求 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


/代码 路 径 : kermel/blk_dev/hd.c: // 与 rd_init 类 似 ， 参 看 rd_init 的 注 


void hd_init (void) 
{ 


blk _dev[MAJOR_NR].request_fn=DEVICE_REQUEST; // 挂 接 
do_hd_request () 


set _intr_gate (Ox2E, &hd_interrupt) ; /设置 硬盘 中 断 


outb_p (Cinb p (0x21) &Oxfb, 0x21) ; /人 允许 8259A 发 出 中 断 请 


outb (Cinb p (OxA1) &Oxbf, OxA1) ; /人 允许 人 硬盘 发 送 中 断 请 求 


} 





图 2-27 形 象 地 给 出 了 初始 化 过 程 。 





第 二 步 :将 硬盘 中 断 服务 = ib Hewat 


程序 hd_interrupt 与 服务 程序 do_hd request 
IDT 的 第 0x2E 项 相 挂 接 | _dev[7] 的 第 3 


挂 接 
第 三 步 :复位 硬盘 
的 中 断 请 求 屏蔽 位 
RO OOO a 
AL BE 





| hd mea i “Tie. dev [7] 


do_hd request 


图 2-27 初始 化 人 硬盘 


2.12 ”初始 化 软盘 


Rt AE HEIR ae A A, TE IA Ee 
个 整体 。 为 了 方便 起 见 ， 本 书 所 述 的 软盘 除 特别 声 
明之 外 都 是 指 软盘 驱动 左 加 软盘 的 整体 。 


软盘 的 初始 化 与 硬盘 的 初始 化 类 似 ， 区 别 是 挂 
接 的 函数 是 do_fd_request， 初 始 化 的 是 与 软盘 相关 
IAW. AAW BA aa AEE 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


floppy init © ; /与 hd_init © 类 似 


ee 


void floppy_init (void) 


{ 


blk _dev[MAJOR_NR].request_fn=DEVICE_REQUEST; // 挂 接 
do_fd_request (©) 


set_trap_gate (0x26, &floppy_interrupt) ; NZ Hach Fly 
outb (Cinb p (0x21) & ~0x40, 0x21) ; /人 允许 软盘 发 送 中 断 


} 





图 2-28 给 出 了 软盘 初始 化 的 主要 步骤 和 完成 后 


H ' 
A 4 


第 一 步 :将 软盘 请 求 项 





第 二 步 : 将 软盘 中 斯 服务 程序 
floppy_interrupt 与 IDT 的 
En 项 (floppy.c 中 
ee en 8259A 
2) 相 挂 接 
第 三 步 : 复 位 软盘 的 中 断 
WERE BAL, wirit 
制 回 发 送 中 断 请 求 信号 


mui 软盘 设置 前 ， 
3 55 E y d ie Se : 
Wat mm | 


. (Te soeven 
floppy_interrupt do fd _request 


图 2-28 初始 化 软盘 


. 


2.13 ”开局 中 断 


现在 ， 系 统 中 所 有 中 断 服 务 程序 都 已 经 和 IDT 
正常 挂 接 。 这 意味 着 中 断 服务 体系 已 经 构建 完毕 ， 
系统 可 以 在 32 位 保护 模式 下 处 理 中 断 ， 重 要 意义 之 
一 是 可 以 使 用 系统 调用 。 


可 以 开启 中 断 了 ! 


执行 代码 如 下 : 


/代码 路 径 : include/asm/system.h: 
#define sti () asm ("sti": ) 
/代码 路 径 : init/main.c: 

void main (void ) 


{ 





图 2-29 给 出 了 开 中 断后 的 效果 ， 注 意 其 中 
EFLAGS 中 的 变化 。 
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图 2-29 FRR Pi 





2.14 ”进程 0 由 0 特权 级 翻转 到 3 特权 
级 ， 成 为 真正 的 进程 


Linux 操 作 系 统 规定 ， 除 进程 0 之 外 ， 所 有 进程 
都 要 由 一 个 已 有 进程 在 3 特权 级 下 创建 。 在 Linux 
0.11 中 ， 进 程 0 的 代码 和 数据 都 是 由 操作 系统 的 设计 
者 写 在 内 核 代 码 、 数 据 区 ， 并 且 ， 此 前 处 在 0 特权 
级 ， 严 格 说 还 不 是 真正 意义 上 的 进程 。 为 了 遵守 规 
则 ， 在 进程 0 正式 创建 进程 1 之 前 ， 要 将 进程 0 由 0 特 
权 级 转变 为 3 特权 级 。 方 法 是 调用 
move_to_user_mode () 函数 ， 模 仿 中 断 返回 动 
作 ， 实 现 进程 0 的 特权 级 从 0 转变 为 3。 





执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


/代码 路 径 : include/system.h: /参看 1.3.4 节 


#define move_to_user_mode () V 模 仿 中 断 硬 件 压 栈 ， 顺 序 是 ss、 
esp、eflags、cs、eip 


_asm ("movl%%esp, %%eax\n\t"\ 


"pushl$0x17\n\t"V/SS 进 栈 ，0x17 即 二 进 制 的 10111 (3 特权 级 、 
LDT、 数 据 段 ) 


"pushl%%eax\n\t"V/ESP 进 栈 

"pushfl\n\t"V/EFLAGS HE Fe 

"pushl$OxOf\n\t"V/CSHERR, OxOfEN1111 (3 特权 级 、LDT、 代 码 段 ) 
"pushl$1f\n\t"V/EIP 进 栈 


"iretn"V/ 出 栈 恢复 现场 、 翻 转 特 权 级 从 0 到 3 


"1: \tmovl$0x17，%%eax\n\t"V/ 下 面 的 代码 使 ds、es、fs、gs 与 ss 一 


BL 


"movw%%ax > 


"movw%%ax, 


"movw%%ax;, 


"movw%%ax;, 


: »ax») 


%%ds\n\t"\ 
%%es\n\t"'\ 
%%fs\n\t""\ 


%%gs"™ 


IA-32 体 系 结构 翻转 特权 级 的 方法 之 一 是 用 中 


Wo BLAMAT, CPU HIR, fE 


WATIE ABUT AP, RECS: EIP 切 换 到 相应 的 中 
晰 服务 程序 去 执行 ， 执 行 完毕 义 执行 iret 指 令 返 回 





被 中 断 的 程序 继续 执行 。 


这 期 间 ， 


CPU 硬件 还 做 了 两 件 事 : 一 件 是 便 件 


保护 现场 和 恢复 现场 ， 男 一 件 是 可 以 翻转 特权 级 。 


从 代码 的 执行 序 上 看 ， 中 断 类 似 函 数 调用 ， 者 
是 从 一 段 正在 执行 的 代码 跳 转 到 另 一 段 代码 执行 ， 
执行 之 后 返回 原来 的 那 段 代码 继续 执行 。 为 了 保证 
执行 完 函 数 或 中 断 服务 程序 的 代码 之 后 能 准确 返回 
原来 的 代码 继续 执行 ， 需 要 在 跳 转 到 函数 或 中 断 服 
务 程 序 代 码 之 前 ， 将 起 跳 点 的 下 一 行 代 码 的 CS、 
EIP 的 值 压 栈 保存 ， 保 护 现场 。 函 数 或 中 断 服 务 程 
序 的 代码 执行 完毕 ， 再 将 栈 中 保存 的 值 出 栈 给 CS、 
EIP， 此 时 的 CS、EIP 指 辣 的 就 是 起 跳 点 的 下 一 行 ， 
恢复 现场 。 所 以 ，CPU 能 准确 地 执行 主 调 程序 或 被 
中 断 的 程序 。 实 际 需 要 保护 的 寄存 右 还 有 EFLAGS 


Fe 
等 。 

















中 断 与 函数 调用 不 同 的 是 ， 函 数 调 用 是 程序 员 
事先 设计 好 的 ， 知 道 在 代码 的 哪个 地 方 调用 ， 编 详 
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代码 ;而 中 断 的 发 生 是 不 可 预见 的 ， 无 法 预先 编译 
出 保护 、 恢 复 的 代码 ， 只 好 由 硬件 完成 保护 、 恢 复 
的 压 栈 、 出 栈 动 作 。 所 以 ，int 指 令 会 引发 CPU 硬件 
完成 SS、ESP、EFLAGS、CS、EIP 的 值 按 序 进 

栈 ， 同 理 ，CPU 执 行 iret 指 令 会 将 栈 中 的 值 目 动 按 反 
序 恢复 给 这 5 个 寄存 器 。 











CPU 啊 应 中 断 的 时 候 ， 根 据 DPL 的 设置 ， 可 以 
实现 指定 的 特权 级 之 间 的 翻转 。 前 面 的 sched_init 函 
数 中 的 set_system_gate (0x80, &system_call) 就 是 
设置 的 int 0x80 中 断 由 3 特权 级 翻转 到 0 特权 级 ，3 特 
权 级 的 进程 做 了 系统 调用 int 0x80，CPU 就 会 翻转 到 
0 特权 级 执行 系统 代码 。 同 理 ，iret 又 会 从 0 特权 级 
的 系统 代码 翻转 回 3 特权 级 执行 进程 代码 。 





move_to_user_mode () PRAIRIE 


理 ， 利 用 iret 实 现 从 0 特权 级 翻转 到 3 特权 级 。 





由 于 进程 0 的 代码 到 现在 一 直 处 在 0 特权 级 ， 并 
不 是 从 3 特权 级 通过 int 翻 转 到 0 特权 级 的 ， 栈 中 并 没 
有 int 自 动 压 栈 的 5 个 寄存 器 的 值 。 为 了 iret 的 正确 使 
用 ， 设 计 者 手工 写 压 栈 代 码 模拟 int 的 压 栈 ， 当 执行 
iret 指 令 时 ，CPU 自 动 将 这 5 个 寄存 器 的 值 按 序 恢复 
给 CPU,CPU 就 会 翻转 到 3 特权 级 的 段 ， 执 行 3 特权 级 
的 进程 代码 。 











为 了 iret 能 翻转 到 3 特权 级 ， 不 仅 手 工 模 拟 的 压 
栈 顺 序 必须 正确 ， 而 且 SS、CS 的 特权 级 还 必须 正 
确 。 注 意 : 栈 中 的 SS 值 是 0x17， 用 二 进 制 表示 就 是 
00010111， 最 后 两 位 表示 3， 是 用 户 特 权 级 ， 倒 数 


第 3 位 是 1， 表 示 从 LDT 中 获取 段 描 述 符 ， 第 4 一 5 位 





HI LOAN MLDT AY HE 3I HE FB TSE ee Be Be AI HERR 


IF 


当 执 行 iret 时 ， 便 件 会 按 序 将 5 个 push 压 栈 的 数 
据 分 别 出 栈 给 SS、ESP、EFLAGS、CS、EIP。 压 
栈 顺 序 与 通常 中 断 返 回 时 硬件 的 出 栈 动作 一 样 ， 返 
回 的 效果 也 是 一 样 的 。 





执行 完 move to _user mode () ， 相 当 于 进行 
了 一 次 中 断 返 回 ， 进 程 0 的 特权 级 从 0 翻转 为 3， 成 
为 名 副 其 实 的 进程 。 





2.15 ”本 章 小 结 


本 章 开始 执行 以 main() 函数 为 代表 的 用 C 语 
言 编写 的 操作 系统 内 核 代码 ， 内 容 涉及 硬件 初始 
化 、 为 内 核 及 进程 的 正确 运行 所 做 的 初始 化 、 激 活 
进程 0。 





便 件 初始 化 又 可 以 分 为 两 类 : 一 类 是 与 主机 有 
天 的 硬件 初始 化 ， 包 括 规划 内 存 格局 、 设 置 及 初始 
化 缓冲 区 、 设 置 及 初始 化 虚拟 盘 、 初 始 化 
mem_map、 初 始 化 缓冲 区 管理 结构 等 ， 男 一 类 是 与 
外 设 有 关 的 初始 化 ， 包 括 设置 根 设 备 、 人 初始化 软 


盘 、 初 始 化 便 盘 等 。 








为 内 核 及 进程 的 正确 运行 所 做 的 初始 化 ， 包 括 
中 断 服务 程序 的 挂 接 、 初 始 化 进程 0 等 。 
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翻转 到 3， 实 现 激活 进程 0。 





第 3 革 ”进程 1 的 创建 及 执行 


现在 ， 计 算 机 中 己 经 有 了 一 个 名 副 其 实 的 、3 
特权 级 的 进程 一 一 进程 0。 下 面 我 们 要 详细 讲解 进 
程 0 做 的 第 一 项 工作 一 一 创建 进程 1。 


3.1 进程 1 的 创建 


进程 0 现在 处 在 3 特权 级 状态 ， 即 进程 状态 。 正 
式 开 始 运行 要 做 的 第 一 件 事 吏 是 作为 父 进 程 调用 
fork 函 数 创 建 第 一 个 子 进程 一 一 进程 1， 这 是 父子 进 
程 创建 机 制 的 第 一 次 实际 运用 。 以 后 ， 所 有 进程 都 
是 基于 父子 进程 创建 机 制 由 父 进 程 创建 出 来 的 。 











3.1.1 ”进程 0 创建 进程 1 


在 Linux 操 作 系 统 中 创建 新 进程 的 时 候 ， 都 是 
由 父 进程 调用 fork 函 数 来 实现 的 。 访 过程 如 图 3-1 所 


人 小。 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 

static inline_syscall0 (int,fork)〉// 对 应 fork © 函数 
static inline_syscall0 (int,pause) 

static inline_syscall1 Cint,setup,void*, BIOS) 


void main (void) 


sti O) ; 
move _to_user_mode () ; 
if (! fork ©) ) {/*we count on this going ok*/ 


init () ; 


/* 
*NOTE! For any other task'pause () 'would mean we have to get a 
*signal to awaken,but task0 is the sole exception (see'schedule () ') 


*as task 0 gets activated at every idle moment (when no other tasks 


*can run) .For taskO'pause () ‘just means we go check if some other 
*task can run,and if not we return here. 
T) 


for (; ) pause () ; 


on Ox9FFFF OxFFFFF Ox3FFFFF OxSFFFFF 


和 


t.. 
a E T 
s.s. 
.. 
bises, 
+s 
tee 


由 了 人 






onj | os tse ie. 





ws 
. . 
. . 
er a 
* ee 
. . 
* 


# system_¢all sys, fork E 


| [csmm 


进入 system call 后 ， 压 


第 二 步 :从 IDT 一 直 跳 转 栈 的 数据 都 在 此 结构 处 
到 sys_fork 执 行 
2 Rm Foon FEO 
: 进程 0 
| 就 结 态 
t 
当前 进程 
系统 调用 产生 后 
a 系统 调用 产生 前 ， 
Pi 码 区 "See, 核 数据 区 
apr) 上 He i a 
SS we E AS “| init_task 


.*, 
v a n 
Cd 二 
BIASTERI O UON 
ts 


al £ i on O E 
MENIH 


ee 


图 3-1 操作 系统 为 创建 进程 1 进行 的 准备 工作 


从 上 面 main.c 的 代码 中 对 fork O 的 声明 ， 可 
知 调用 fork 函 数 ;， 实 际 上 是 执行 到 unistdh 中 的 宏 函 


数 syscall0 中 去 ， 对 应 代码 如 下 : 





/代码 路 径 : include/unistd.h: 
#define__NR_setup 0/*used only by init,to get system going*/ 
#define NR exit 1 
#defne__NR_fork 2 
#define__NR_read 3 
#define NR write 4 
#define__NR_open 5 
#define__NR_close 6 
#define_syscall0 (type,name) \ 
type name (void) \ 

{\ 


long _ res; \ 


__asm__volatile C"int$0x80"\ 
: "=a" (__res) \ 
: "0" (_ NR ##name) ) ; \ 
if (__res>=0) \ 


return (type) _ res; \ 


errno=- res; \ 
return-1; \ 


volatile void_exit (int status) ; 

int fcntl Cint fildes,int cmd, ...... ) ; 
int fork (void) ; 

int getpid (void) ; 

int getuid (void) ; 

int geteuid (void) ; 


/代码 路 径 : include/linux/sys.h: 


extern int sys_setup () ; 
extern int sys_exit () ; 
extern int sys_fork ©) ; /对 应 system_call.s 中 的 _sys_fork， 汇 编 中 


对 应 C 语 言 的 函数 名 在 前 面 多 加 一 个 下 划 线 ""， 如 C 语 言 的 sys_fork 对 应 
汇编 的 束 是 _sys_fork 





extern int sys_read () ; 
extern int sys_write () ; 
extern int sys_open () ; 


fn _ptr sys_call_table[]= 


{Sys_setup,sys_exit,sys_fork,sys_read，//sys_fork 对 应 _sys_call_table 的 第 
三 项 


sys _write,sys_open,sys_close,sys_waitpid,sys_creat,sys_link, 
sys _unlink,sys_execve,sys_chdir,sys_time,sys_mknod,sys_chmod, 


ee 


syscall0 展 开 后 ， 看 上 去 像 下 面 的 样子 : 


int fork (void) /参看 2.5 节 、2.9 节 、2.14 节 有 关 骨 入 汇编 的 代码 注 


long __res 


__asm_ volatile ("int$0x80"//int 0x80 是 所 有 系统 调用 函数 的 总 入 
O, fork O 是 其 中 之 一 ， 参 看 2.9 节 的 讲解 及 代码 注释 








"=a" (_res) /第 一 个 冒号 后 是 输出 部 分 ， 将 _res 赋 给 eax 





: "0" (NR fork) ) ; /第 二 个 冒号 后 是 输入 部 分 ，"0": ALF 
存 器 ， 即 eax，_NR _fork 就 是 2， 将 2 给 eax 


if (__res>=0) //int 0x80 中 断 返 回 后 ， 将 执行 这 一 名 
return (int) _ res; 

ermo=-__res; 

return-1; 

} 


// 重 要 : 别 忘 了 int 0x80 导 致 CPU 硬件 自动 将 ss、esp、efags、cs、eip 
的 值 压 栈 ! 参看 2.14 节 的 讲解 及 代码 解释 





int 0x80 的 执行 路 线 很 长 ， 为 了 清楚 起 见 ， 将 
大 致 过 程 图 示 如 下 〈 见 图 3-2) 。 


3 特权 级 sa 
pe 
sesse cep! $nr_system_calls-1, Non 
fentl{int fildes, int cmd, ...) 
fork(void) int 0x80 
getpid (void) 
Saiit Sas 
wow Sdx, $s 
call sys_call_table(, Seax, 4) 
pushl feax 
morl current, Neax 
capl $0, state (eax) 


joe reschedule 
capl $0, counter (eax) 
je reschedule 





sys_call table 









一 一 一 一  sys_setup() 







3 call _find_empty_process 
i : test] Neax, eax 一 一 会- find_empty_process() 
his js 1£ 


push %gs 

push] Wesi 

pushl %edi 

pushl %ebp 

push] Seax 

call _copy_proceas 
add] $20, tesp 


ret 





copy_process() 


get_free_page() 


copy_mem() get limit () 


get_base() 


set_base() 


copy_page_tables() — get free page() 


图 3-2 系统 调用 路 线 图 
详细 的 执行 步骤 如 下 : 


先 执 行 : "0" (__NR_fork) 这 一 行 ， 意思 是 将 
fork 在 sys_call_table[] 中 对 应 的 函数 编写 
NR fork EPE) 赋值 给 eax。 这 个 编号 即 
sys_fork © 函数 在 sys_call_table 中 的 偏 移 值 。 


紧 接 着 就 执行 "int$0x80"， 产 生 一 个 软 中 断 ， 
CUP 从 3 特权 级 的 进程 0 代码 跳 到 0 特权 级 内 核 代码 
中 执行 。 中 断 使 CPU 硬件 自动 将 SS、ESP、 
EFLAGS、CS、EIP 这 5 个 寄存 乾 的 数值 按照 这 个 顺 
序 压 入 图 3-1 所 示 的 init_task 中 的 进程 0 内 核 栈 。 注 意 
其 中 init_task 结 构 后 面 的 红 条 ， 表 示 了 刚刚 压 入 内 
核 栈 的 寄存 器 数值 。 前 面 刚刚 提 到 的 











move _to_user_mode 这 个 函数 中 做 的 压 栈 动作 融 是 
模仿 中 断 的 硬件 压 栈 ， 这 些 压 栈 的 数据 将 在 后 续 的 
copy_process () 水 数 中 用 来 初始 化 进程 1 的 TSS。 








值得 注意 ， 压 栈 的 EIP 指 回 当前 指 
令 "int$y0x80" 的 下 一 行 ， 即 让 (_res>=0) 这 一 行 。 
这 一 行 承 是 进程 0 从 fork 机 数 系统 调用 中 断 返 回 后 第 
一 条 指令 的 位 置 。 在 后 续 的 3.3 市 将 看 到 ， 这 一 行 也 
将 是 进程 1 开始 执行 的 第 一 条 指令 位 置 。 请 记 住 这 
一 占 | 


根据 2.9 节 讲解 的 sched_init 函 数 中 
set_system_gate (0x80, &system_call) 的 设置 ， 
CPU 自动 压 栈 完成 后 ， 跳 转 到 system_call.s 中 的 
_system_call 处 执行 ， 继 续 将 DS、ES、FS、EDX、 
ECX、EBX 压 栈 〈 以 上 一 系列 的 压 栈 操作 都 是 为 了 





后 面 调用 copy_process 函 数 中 初始 化 进程 1 中 的 TSS 
做 准备 ) 。 最 终 ， 内 核 通 过 刚刚 设置 的 eax 的 俩 移 
值 “2? 奏 询 sys_call_table[]， 得 知 本 次 系统 调用 对 应 
的 函数 是 sys_fork ©) 。 因 为 汇编 中 对 应 C 语 言 的 函 
数 名 在 前 面 多 加 一 个 下 划 线 “”( 如 C 语 言 的 

sys fork O 对 应 汇编 的 束 是 _sys_fork) ， 所 以 跳 
转 到 _sys_fork 处 执行 











RAE 


PA LBD ve HA EA BE A, e H eR 
数 定义 以 外 的 程序 通过 压 栈 的 方式 “做 ?出 来 的 ， 是 
操作 系统 底层 代码 与 应 用 程序 代码 写作 手法 的 兰 弄 
之 一 ; 需要 对 Ci 语言 的 编译 、 运 行 时 结构 非 第 清 
晰 ， 才 能 彻 展 理解 。 运 行 时 ，C 语 言 的 参数 存在 于 
栈 中 。 模 仿 这 个 原理 ， 操 作 系 统 的 设计 者 可 以 将 前 

















面 程序 所 压 栈 的 值 ， 按 序 “ 强 行 ? 认 定 为 函数 的 参 
数 ， 当 call 这 个 函数 时 ， 这 些 值 束 可 以 当做 参数 使 
用 。 


上 述 过 程 的 执行 代码 如 下 : 





/代码 路 径 : kernel/system_call.s: 


_system_call: #int 0x80 系统 调用 的 总 入 口 





cmpl $nr_system_calls-1, %eax 
ja bad_sys_call 


push %ds# 下 面 6 个 push 都 是 为 了 copy_process〈) 的 参数 ， 请 记 住 压 
栈 的 顺序 ， 别 忘 了 前 面 的 int 0x80 还 压 了 5 个 寄存 器 的 值 进 栈 


push %es 
push %fs 
pushl %edx 


pushl %ecx#push%ebx, %ecx, %edx as parameters 


call 


pushl %ebx#to the system call 

movl $0x10, %edx#set up ds,es to kernel space 
mov %dx, %ds 

mov %dx, %es 

movl $0x17, %edx#fs points to local data space 
mov %dx, %fs 


call_sys_call_table (, %eax, 4) #eax 是 2， 可 以 看 成 
(_sys_call_table+2x4) 就 是 _sys_fork 的 入 口 


pushl %eax 

movl _current, %eax 

cmpl $0, state (%eax) #state 

jne reschedule 

cmpl $0, counter (%eax) #counter 

je reschedule 

ret _from_sys_call: 

movl _current, %eax#task[0]cannot have signals 


cmpl _task, %eax 


je 3f 

cmpw $0x0f,CS (%esp) #was old code segment supervisor? 
jne 3f 

cmpw $0x17, OLDSS (%esp) #was stack segment=0x17? 
jne 3f 

movl signal (%eax) , %ebx 

movl blocked (%eax) , %ecx 

notl %ecx 

andl %ebx, %ecx 

bsfl %ecx, Y%ecx 

je 3f 

btrl %ecx, Y%ebx 

mov! %ebx,signal (%eax ) 

incl %ecx 

pushl %ecx 

call _do_signal 


popl %eax 


3: popl%eax 
popl %ebx 
popl %ecx 
popl %edx 
pop %fs 

pop %es 

pop %ds 

iret 


call_sys_call_table (, %eax, 4) 中 的 eax 是 2， 
这 一 行 可 以 看 成 call_sys_call_table+2x4 (4 的 意思 是 
_sys_call_table[] 的 每 一 项 有 4 字 节 )〉 ， 相 当 于 
call_sys_call_table[2]《〈 见 图 3-1 的 左 中 部 分 ) , aie 





#447 sys_fork . 


注意 : call_sys_call_table (, %eax, 4) 指令 
本 里 也 会 压 栈 保 护 现场 ， 这 个 压 栈 体现 在 后 面 
copy_process 函 数 的 第 6 个 参数 long none. 


对 应 代码 如 下 : 


/代码 路 径 : kernel/system_call.s: 


ee 


_sys_fork: 
call _fnd_empty_process# 调 用 find_empty_process () 


test] %eax，%eax# 如 果 返 回 的 是 -EAGAIN (11) ， 说 明 已 有 64 个 进 
程 在 运行 


js 1f 


push %gs#5 个 push 也 作为 copy_process () 的 参数 初始 


pushl %esi 

pushl %edi 

pushl %ebp 

pushl %eax 

call _copy_process#ial H copy_process ( ) 


addl $20, %esp 


3.1.2 ”在 task[64] 中 为 进程 1 申请 一 个 空闲 位 
置 并 获取 进程 号 


开始 执行 sys_fork () 。 


前 面 2.9 节 介绍 过 ， 在 sched_init O 函数 中 已 
经 对 task[64] 除 0 项 以 外 的 所 有 项 清空 。 现 在 调用 
find_empty_process © 函数 为 进程 1 获得 一 个 可 用 
的 进程 号 和 task[64] 中 的 一 个 位 置 。 图 3-3 标 示 了 这 
个 调用 的 效果 。 


oe Ox9FFFF OxFFFFF 0Ox3FFFFF OxSFFFFF OxFFFFFF 





ee eee 


为 进程 1 找到 空 进程 档 
PO cc eet a ae eer 
进程 0 
| 就 绪 态 
t 
当前 进程 
进程 档 申请 后 
进程 档 申 请 前 
} task[64] 


enon 
we 


Al 3-3 在 内 核 数 据 区 中 碍 找 进程 空 朵 项 


在 find_empty_process〈) KAF, WHEA 
变量 ]ast_pid 来 存放 系统 自 开 机 以 来 索 计 的 进程 数 ， 


也 将 此 变量 用 作 新 建 进程 的 进程 和 与。 内 核 第 一 次 授 
历 task[64],，“& 区 "条件 成 立 说 明 last_pid 已 被 使 
用 ， 则 ++last_pid， 下 到 获得 用 于 新 进程 的 进程 


号 。 第 二 次 近 历 task[64]， 获 得 第 一 个 空 亲 的 i， 伶 


ME, WAEHERE EE last pidi 
是 1， 在 task[64] 中 占据 第 二 项 。 图 3-3 标 示 了 这 个 结 
Ro 





为 Linux 0.11 的 task[64] 只 有 64 项 ， 最 多 只 能 
同时 运行 64 个 进程 ， 如 果 find_empty_process () K 
数 返回 -EAGAIN， 意 味 着 当前 已 经 有 64 个 进程 在 运 
行 ， 当 然 这 种 情况 现在 还 不 会 友 生 。 执 行 代码 如 


P: 


/代码 路 径 :; kernel/fork.c: 


ee 


int fnd_empty_process (void) /为 新 创建 的 进程 找到 一 个 空闲 的 位 
NR_TASKS 是 64 


int i; 
repeat: 
if € (++last_pid) <0) last_pid=1; // 如 果 ++ 后 last_pid 淤 出 ， 则 置 1 


for (i=0; i<NR_TASKS; i++) // 现 在，++ 后 last_pid 为 1。 找 到 有 


效 的 last_pid 


if (task[i] & & task[i]->pid==last_pid) goto repeat; 

for (i=1; i<NR_TASKS; i++) /返回 第 一 个 空闲 的 i 
if C! task[i]) 

return i; 


return-EAGAIN; WEAGAIN 是 11 


进程 1 的 进程 号 及 在 task[64] 中 的 位 置 确定 后 ， 
正在 创建 的 进程 1 就 等 于 有 了 刁 份 。 接 下 来 ， 在 进 
程 0 的 内 核 栈 中 继续 压 栈 ， 将 5 个 寄存 器 值 进 栈 ， 为 
调用 copy_process《〈) 函数 准备 参数 ， 这 些 数据 也 
是 用 来 初始 化 进程 1 的 TSS。 注 意 : 最 后 压 栈 的 eax 
的 值 就 是 find_empty_process () 函数 返回 的 任务 


号， 也 将 是 copy_process © 国 数 的 第 一 个 参数 int 





NT o 


压 栈 结 束 后 ， 开 始 调用 copy_process © pki 
数 ， 如 图 3-4 中 第 二 步 所 示 。 







进程 0 第 一 步 ， RIK 


task_struct 





Pr=--------------------------------------------------------------------------------- 一 ------ 


人 
gooti Mieg 
»* . 
eC lS 


AL AA RT dC WE mm RE SE A NN a | 


3-4 调用 copy_process © 之 前 的 压 栈 动作 


VIZ 


3.1.3 ”调用 copy_process 函 数 


进程 0 已 经 成 为 一 个 可 以 创建 子 进程 的 父 进 
程 ， 在 内 核 中 有 “进程 0 的 task_struct* 和 “进程 0 的 页 
表 项 ”等 专属 进程 0 的 管理 信息 。 进 程 0 将 在 
copy_process ©) 函数 中 做 非常 重要 的 、 体 现 父 子 
进程 创建 机 制 的 工作 : 


1) 为 进程 1 创建 task_struct， 将 进程 0 的 
task_struct 的 内 容 复 制 给 进程 1。 


2) 为 进程 1 的 task_struct、tss 做 个 性 化 设置 。 


3) 为 进程 1 创建 第 一 个 页 表 ， 将 进程 0 的 页 表 


项 内 容 赋 给 这 个 页 表 。 


4) 进程 1 共 至 进程 0 的 文件 。 


5) 设置 进程 1 的 GDT 项 。 


6) 最 后 将 进程 1 设置 为 吏 绪 态 ， 使 其 可 以 参与 
进程 间 的 轮转 。 


现在 调用 copy_process O ži! 


在 讲解 copy_process〈) 函数 之 前 ， 值 得 提醒 
的 是 ， 所 有 的 参数 都 是 前 面 的 代码 累积 压 栈 形成 
的 ， 这 些 参数 的 数值 都 与 压 栈 时 的 状态 有 关 。 执 行 
代码 如 下 : 


/代码 路 径 : kernelfork.c: 

int copy_process Cint nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 

long fs,long es,long ds, 


long eip,long cs,long efags,long esp,long ss ) 


/注意 : 这 些 参数 是 int 0x80、system_call、sys_fork 多 次 累积 压 栈 的 
结果 ， 顺 序 是 完全 一 致 的 


struct task_struct * p; 
int i; 


struct file * f; 





/在 16 MB 内 存 的 最 高 端 获 取 一 页 ， 强 制 类 型 转换 的 潜台词 是 将 这 
个 页 当 task_union 用 ， 参 看 2.9 节 


p= (struct task_struct *) get free page () ; 
if C! p) 
return-EAGAIN; 


task[nr]=p; // 此 时 的 nr 就 是 1， 潜 台词 是 将 这 个 页 当 task_union 用 ， 
参看 2.9 市 





it Acopy_process ©) 函数 后 ， 调 用 
get_free_page O 图 数 ， 在 主 内 存 申请 一 个 空闲 页 


面 ， 并 将 申请 到 的 页 面 清 零 ， 用 于 进程 1 的 
task_struct 及 内 核 栈 。 





按照 get_free_page《〈) 函数 的 算法 ， 是 从 主 内 
存 有 的 末 病 开始 同 低 地 址 端 递 进 ， 现 在 是 开机 以 来 ， 
操作 系统 内 核 第 一 次 为 进程 在 主 内 存 申请 空 亲 页 
面 ， 申 请 a 到 的 空 几 页 面 肯 定 在 16 MB 主 内 存 的 最 末 


LU 


iti o 


执行 代码 如 下 : 


/代码 路 径 :， mm/memory.c: 


unsigned long get_free_page (void) /遍历 mem map[]， 找 到 主 内 存 
中 《从 高 地 址 开始 ) 第 一 个 空闲 页 面 


{// 参 看 前 面 的 租 入 汇编 的 代码 注释 
register unsigned long _ res asm ("ax") ; 


__asm_ ("std; repne; scasbn\t"// 反 向 扫描 串 (mem map[]) ， 
al (0) 与 di 不 等 则 重复 〈 找 引用 对 数 为 0 的 项 ) 


"jne Ant RAREN K, whe BL 


"movb$1, 1 〈(%%edi)〉\n\t"M/ 将 1 赋 给 edi+1 的 位 置 ， 在 mem map[] 
中 ， 将 找到 0 的 项 的 引用 计数 置 为 1 


"sall$12，%%ecx\n\t"//ecx 算 数 左 移 12 位 ， 页 的 相对 地 址 

"addl%2, %%ecx\n\t"//LOW MEN+ecx， 页 的 物理 地 址 
"movl%%ecx, %%edx\n\t" 

"movl$1024, %%ecx\n\t" 

"leal 4092 (%%edx) ，%%edin\t"// 将 edx+4 KB 的 有 效 地 址 赋 给 edi 


"rep; stosl\n\t"// 将 eax〔 即 "0" (0) ) 赋 给 edi 指 向 的 地 址 ， 目 的 是 
页 面 清 零 


"movl%%edx, %%eax\n" 

my." 

: "=a" (_ res) 

: "0" (0) , "i" C(LOW_MEM) , "c" (PAGING_PAGES) , 


"D" (mem_map+PAGING_PAGES-1) //edx,mem map[] 的 最 后 一 个 
JLZ 





: "di", "cx", "dx") ; /第 三 个 冒号 后 是 程序 中 改变 过 的 量 





retum Tes; 


回 到 copy_process 函 数 ， 将 这 个 页 面 的 指针 强 
制 类 型 转换 为 指 问 task_struct 的 指针 类 型 ， 并 挂 接 
在 task[1] 上， 即 task[nr]=p。nr 束 是 第 一 个 参数 ， 是 


find_empty_process 疯 数 返回 的 任务 号 。 





请 注音，C 语 言 中 的 指针 有 地 址 的 含义 ， 更 有 
类 型 的 含义 ! 强制 类 型 转换 的 意思 是 “认定 ”这 个 页 
面 的 低地 址 端 就 是 进程 1 的 task_struct 的 首 地 址 ， 同 
时 暗示 了 局 地 址 部 分 古 内 核 栈 。 了 解 了 这 一 点 ， 后 








面 的 p->tss.esp0=PAGE_SIZE+ (long) p 就 不 奇怪 
fs 


扩 评 





task_struct 是 操作 系统 标识 、 管 理 进程 的 最 重 


要 的 数据 结构 ， 每 一 个 进程 必须 具备 只 属于 目 己 
的 、 唯 一 的 task_struct。 





/代码 路 径 : kernel/fork.c: 

int copy_process Cint nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 

long fs,long es,long ds, 

long eip,long cs,long efags,long esp,long ss) { 

if (C! p) 

return-EAGAIN; 


task[nr]=p; /此 时 的 mr 就 是 1 





/*current 指 向 当前 进程 的 task_struct 的 指针 ， 当 前 进程 是 进程 0。 下 
面 这 行 的 意思 : 将 父 进程 的 task_struct 赋 给 子 进程 。 这 是 父子 进程 创建 
机 制 的 重要 体现 。 这 行 代码 执行 后 ， 父 子 进 程 的 task_struct 将 完全 一 样 */ 


*p=*current; /*NOTE! this doesn't copy the supervisor stack*/ 


AER! 注意 指针 类 型 ， 只 复制 task_struct， 并 未 将 4KB 都 复制 ， 
即 进程 0 的 内 核 栈 并 未 复制 次 


p->state=TASK_UNINTERRUPTIBLE; // 只 有 内 核 代码 中 明确 表示 
将 该 进程 设置 为 束 绪 状态 才能 被 唤醒 ， 除 此 之 外 ， 没 有 任何 办 法 将 其 唤 
We 

p- 之 pid=last_pid，/ 开 始 子 进 程 的 个 性 化 设置 

p-> father=current- > pid; 

p->counter=p- > priority; 

p->signal=0; 

p->alarm=0; 

p->leader=0; /*process leadership doesn't inherit*/ 

p->utime=p->stime=0; 

p->cutime=p-> cstime=0; 

p-> start_time=jiffies ; 


p->tss.back_link=0; /开始 设置 子 进程 的 TSS 








效果 如 图 3-5〔 为 了 方便 阅读 ， 我 们 把 2.9 节 的 


图 2-20 复 制 在 下 面 ) AIAN 


union task_union 


struct task_struct task; 
char stack[PAGE SIZE]; 
i oai 


-一 


stack (4 KB, 正好 一 页 ) 





init task 
(task_union) 





task_struct (INIT_TASK) 
(956 B) 





INIT_ TASK 指针 


图 3-5 task union 结构 示意 图 


RAVE 


task_union 的 设计 颇具 匠心 。 前 面 是 
task_struct， 后 面 古 内 核 栈 ， 增 长 的 方 同 正好 相 
反 ， 正 好 占用 一 页 ， 顺 应 分 页 机 制 ， 分 配 内 存 非常 
方便 。 而 且 操作 系统 设计 者 肯定 经 过 反复 测试 ， 保 


证 内 核 代 码 所 有 可 能 的 调用 导致 压 栈 的 最 大 长 度 都 
不 会 覆盖 前 面 的 task_struct。 因 为 内 核 代 码 都 是 操 
作 系 统 设计 者 设计 的 ， 可 以 做 到 心中 有 数 。 相 反 ， 
假如 这 个 方法 为 用 户 进 程 提 供 栈 空间 ， 奴 怕 要 出 大 


问题 了 。 


接 下 来 的 代码 意义 重大 : 


*p=*current; /*NOTE! this doesn't copy the supervisor stack*/ 


current 是 指 癌 当前 进程 的 指针 p 有 十 进程 1 的 指 
针 。 当 前 进程 是 进程 0， 古 进程 1 的 父 进程 。 将 父 进 
程 的 task_struct 复 制 给 子 进 程 ， 就 是 将 父 进程 最 重 
要 的 进程 属性 复制 给 了 子 进程 ， 子 进程 继承 了 父 进 
程 的 绝 大 部 分 能 力 。 这 是 父子 进程 创建 机 制 的 特点 
ae 





进程 1 的 task_struct 的 纵 形 此 时 已 经 形成 了 ， 进 
程 0 的 task_struct 中 的 信息 并 不 一 定 全 都 适用 于 进程 
1， 因 此 还 需要 针对 具体 情况 进行 调整 。 初 步 设置 
进程 1 的 task_struct 如 图 3-6 所 示 。 从 p- 开 始 的 代 
码 ， 都 是 为 进程 1 所 做 的 个 性 化 调整 设置 ， 其 中 调 
整 TSS 所 用 到 的 数据 都 是 前 面 程序 累积 压 栈 形成 的 
参数 。 








执行 代码 如 下 : 


/代码 路 径 : kernel/fork.c: 

int copy_process (int nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 

long fs,long es,long ds, 

long eip,long cs,long efags,long esp,long ss ) 


{ 


p->start_time=jiffies ; 
p->tss.back_link=0; /开始 设置 子 进 程 的 TSS 


p->tss.espO=PAGE_SIZE+ (long) p; /esp0 是 内 核 栈 指针 ， 参看 上 
面 的 注释 及 2.9.1 节 


p->tss.ss0=0x10; /WOx10 就 是 10000，0 特 权 级 ，GDT， 数 据 段 


p->tss.eip=eip; /重要 ! 就 是 参数 的 EIP， 是 int 0x80 压 栈 的 ， 指 问 
的 是 : if ( res 之 =0) 


p->tss.eflags=eflags; 


p->tss.eax=0; /重要 ! 决定 main() 函数 中 让 (C! fork © ) 后 面 
Ea} SC FE |] 


p->tss.ecx=ecx; 
p->tss.edx=edx; 
p->tss.ebx=ebx; 
p->tss.esp=esp; 
p->tss.ebp=ebp; 
p->tss.esi=esi; 


p->tss.edi=edi; 


p->tss.es=es & Oxffff; 

p->tss.cs=cs & Oxffff; 

p->tss.ss=ss & Oxffff; 

p->tss.ds=ds & Oxffff; 

p->tss.fs=fs & Oxffff; 

p->tss.gs=gs & Oxffff; 

p->tss.ldt=_LDT (nr) ; // 挂 接 子 进程 的 LDT 
p->tss.trace_bitmap=0x80000000; 

if (last_task_used_math==current ) 


_asm _ (,,clts; fnsave%0": "m" (p->tss.i387) ) ; 








p->tss.eip=eip; 


p->tss.eax=0; 


这 两 行 代码 为 第 二 次 执行 fork ©) 中 的 
if (_res>=0) 埋 下 伏笔 。 这 个 伏笔 比较 隐 讳 ， 不 
太 容 易 看 出 来 ， 请 读者 一 定 要 记 住 这 件 事 ! 








Ox! OxOFFFF OxFFFFF 0x3FFFFF OxSFFFFF 






进程 1 的 task_struct 
所 在 页 面 







第 二 步 : 把 进程 0 的 管理 
信息 全 部 复制 到 空闲 页 

第 一 步 : 把 进程 1 的 面 的 相应 位 置 内 
task_struct 挂 接 
在 task[1] 上 


[EEE 


进程 0 进程 1 





A 3-6 初步 设置 进程 1 的 task_struct 


调整 完成 后 ， 进 程 1 的 task_struct 如 图 3-7 所 示 。 
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进程 1 的 task_struct 
所 在 页 面 


进程 1 各 个 管理 成 员 进 行 详细 调整 


图 3-7 对 进程 1 的 task_struct 进 行 调整 
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进程 1 的 tast_struct 调整 前 ， 


进程 1 的 task_struct 所 在 页 面 ， 


图 3-7 (82) 


3.1.4 设置 进程 1 的 分 页 管理 


Intel 80x86 体 系 结构 分 页 机 制 是 基于 保护 模式 
的 ， 先 打开 pe， 才 能 打开 pg， 不 存在 没有 pe 的 pg。 
保护 模式 是 基于 段 的 ， 换 句 话 说 ,设置 进程 1 的 分 
页 常理， 就 要 移 设 置 进程 1 的 分 段 。 





一 般 来 讲 ， 每 个 进程 都 要 加 载 属于 自己 的 代 
码 、 数 据 。 这 些 代码 、 数 据 的 寻 址 都 是 用 段 加 偏 移 
的 形式 ， 也 就 是 逻辑 地 址 形式 表示 的 。CPU 硬 件 自 
动 将 逻辑 地 址 计算 为 CPU 可 寻 址 的 线性 地 址 ， 再 根 
据 操 作 系统 对 页 目录 表 、 页 表 的 设置 ， 自 动 将 线性 
地 址 转换 为 分 页 的 物理 地 址 。 操 作 系统 正 是 沿 着 这 
个 技术 路 线 ， 先 在 进程 1 的 64 MB 线性 地 址 空间 中 
设置 代码 段 、 数 据 段 ， 然 后 设置 页 表 、 页 目录 。 





1. 在 进程 1 的 线性 地 址 空间 中 设置 代码 段 、 数 据 


调用 copy_mem〈) 函数 ， 先 设置 进程 1 的 代码 
段 、 数 据 段 的 段 基 址 、 段 限 长 ， 所 取 当 前 进程 ( 进 
程 0) 的 代码 段 、 数 据 段 以 及 段 限 长 的 信息 ， 并 设 
置 进程 1 的 代码 段 和 数据 段 的 基地 址 。 这 个 基地 址 
就 是 它 的 进程 号 nr*64 MB。 设 置 新 进程 LDT 中 段 描 
述 和 从 中 的 基地 址 ， 如 图 3-8 中 的 第 一 步 所 示 。 





执行 代码 如 下 : 


/代码 路 径 : kernel/fork.c: 

int copy_process Cint nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 

long fs,long es,long ds, 


long eip,long cs,long efags,long esp,long ss ) 


if (last_task_used_math==current ) 
_asm ("clts; fnsave%0": "m" (p->tss.i387) ) ; 


if Ccopy_mem (nrp) ) {/ 设 置 子 进程 的 代码 段 、 数 据 段 及 创建 、 
复制 子 进程 的 第 一 个 页 表 


task[nr]=NULL; /现在 不 会 出 现 这 种 情况 
free_page ( (long) p) ; 
retun-EAGAIN; 

} 


for (i=0; i<NR_OPEN; i++) /下 面 将 父 进程 相关 文件 属性 的 引 
用 计数 加 1， 表 明 父 子 进程 共享 文件 
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第 一 步 : 设置 代码 
段 、 数 据 段 基地 址 





“Oe 
elle 
5 Pelli pe 





前 160 项 有 
oe: ea er 
进程 0 进程 1 
| waa | ratna 
当前 进程 


@.s se © 6 &. 6.8 62 © S 6s @ © S06 © & B86 @ © 8 6 @ S860 6 8 6 BS SOO ES heh 


进程 1 页 目录 表 、 Kansan 


0 159 10 
E 


Al 3-8 设置 进程 1 的 线性 地 址 空间 





/代码 路 径 : include/linux/sched.h: 


ee 


#define_set_base (addr,base) V/ 用 base 设 置 addr， 参 看 2.9 闻 有 段 描述 
符 图 及 代码 注释 


_asm _ ("movw%%dx, %0\n\t"\ 
"rorl$16, %%edx\n\t"\ 
"movb%%dl, %1\n\t"\ 
"movb%%dh, %2"\ 

"m" (* ( (addr) +2) ), \ 
"m" (* ( (addr) +4) ) ，、 
"m" (* ( (addr) +7) ) , \ 
"d" (base) \ 
: "dx") 


#define set_base (ldt,base) set base ( ( (char*) & (ldt) ) , 
base ) 


#define_get_base (addr) ({V/ 获 取 addr 段 基 址 ， 参 看 _set_base， 参 
看 2.9 节 段 描述 


// 符 图 及 代码 注释 

unsigned long _ base; \ 

_asm ("movb%3, %%dh\n\t"\ 
"movb%2, %%dl\n\t"\ 

"shll$16, %%edx\n\t"\ 
"movw%l, %%dx"\ 

: "=d" (__ base) \ 

: "m" (* ( (addr) +2) ) \ 
"m" (* ( (addr) +4) ) \ 

"m" (* ( (addr) +7) ) ) ; \ 
__base; }) 

#define get_base (ldt) _get_base ( ( (char*) & (dt) ) ) 
#define get_limit (segment) ({\ 
unsigned long_ limit; \ 


_asm ("Isll%1, %O0\n\tincl%0": "=r" (__limit) : "r" (segment) 


// 取 segment 的 段 限 长 ， 给 _ limit 


_ limit; }) 
/代码 路 径 :; kernel/fork.c: 


int copy_mem (int nr,struct task_struct * p) /设置 子 进程 的 代码 段 、 
数据 段 及 创建 、 复 制 子 进 程 的 第 一 个 页 表 


unsigned long old_data_base,new_data_base,data_limit; 
unsigned long old_code_base,new_code_base,code_limit; 
/ 取 子 进程 的 代码 、 数 据 段 限 长 


code _limit=get_limit (0x0f) ; WOx0f 即 1111: 代码 段 、LDT、3 特 
权 级 


data _limit=get_limit (0x17) ;WOxl17 即 10111: 数据 段 、LDT、3 特 
权 级 





/获取 父 进 程 〈 现 在 是 进程 0) 的 代码 段 、 数 据 段 基 址 
old _code_base=get_base (current->ldt[1]) ; 

old _data_base=get_base (current->ldt[2]) ; 

if Cold_data_base! =old_code_base ) 

panic ("We don't support separate I& D") ; 


if (data_limit<code_limit) 


panic ("Bad data_limit") ; 


new _data_base=new_code_base=nr*0x4000000; /现在 nr 是 1， 
0x4000000 是 64 MB 


p->start_code=new_code_base; 

set_base (p->ldt[1], new_code_base) ; /设置 子 进程 代码 段 基 址 
set_base (p->ldt[2], new_data_base) ; /设置 子 进程 数据 段 基 址 
if (copy_page tables (old_data_base,new_data_base,data_limit) ) { 
free _page_tables (new_data_base,data_limit) ; 


return-ENOMEM; 


return 0; 





2. 为 进程 1 创建 第 一 个 页 表 并 设置 对 应 的 页 目录 
项 


N 


在 Linux 0.11 中 ， 每 个 进程 所 属 的 程序 代码 执 


行 时 ， 都 要 根据 其 线性 地 址 来 进行 寻 址 ， 并 最 终 映 
射 到 物理 内 存 上 。 通 过 图 3-9 我 们 可 以 看 出 ， 线 性 
地 址 有 32 位 ，CPU 将 这 个 线性 地 址 解析 成 “页 目录 
项 ” “页 表 项 ”和 “页 内 仿 移 ”页 目录 项 存在 于 页 日 
KRF, HURAR; 页 表 项 存在 于 页 表 中 ， 用 
以 管理 页 面 ， 最 终 在 物理 内 存 上 找到 指定 的 地 址 。 
Linux 0.11 中 仅 有 一 个 页 目录 表 ， 通 过 线性 地 址 中 
提供 的 “页 目录 项 ”数据 就 可 以 找到 页 目录 表 中 对 应 
的 页 目录 项 ， 通 过 这 个 页 目录 项 就 可 以 找到 对 应 的 
We; 之 后 ， 通 过 线性 地 址 中 提供 的 “页 表 项 ” 数 
据 ， 就 可 以 在 该 页 表 中 找到 对 应 的 页 表 项 ， 通 过 此 
页 表 项 可 以 进一步 找到 对 应 的 物理 页 面 ， 最 后 ， 通 
过 线性 地 址 中 提供 的 “页 内 偏 移 ”落实 到 实际 的 物理 
地 址 值 。 
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Al 3-9 线性 地 址 到 物理 地 址 映射 过 程 示意 图 


调用 copy_page_tables〈) PIA, KAW HKK 
和 复制 页 表 ， 如 图 3-8 中 第 二 步 和 第 三 步 所 示 ， 注 
意 其 中 页 目录 项 的 位 置 。 





执行 代码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_mem (int nr,struct task_struct * p) 


set base (p->lIdt[1], new_code_ base) ; /设置 子 进程 代码 段 基 址 


set_base (p->ldt[2], new_data_base) ; /设置 子 进程 数据 段 基 址 





/为 进程 1 创建 第 一 个 页 表 、 复 制 进程 0 的 页 表 ， 设 置 进程 1 的 页 目录 
项 


if (copy_page tables (old_data_base,new_data_base,data_limit) ) { 
free _page_tables (new_data_base,data_limit) ; 
return-ENOMEM; 


} 


return 0; 


} 


EA copy_page_tables © 函数 后 ， 先 为 新 的 页 
表 申 请 一 个 空间 页 面 ， 并 把 进程 0 中 第 一 个 页 表 里 
面前 160 个 页 表 项 复制 到 这 个 页 面 中 (1 个 页 表 项 控 
制 一 个 页 面 4KB 内 存 空间 ，160 个 页 表 项 可 以 控制 
640 KB 内 存 空间 ) 。 进 程 0 和 进程 1 的 页 表 和 暂时 都 指 
向 了 相同 的 页 面 ， 意 味 着 进程 1 也 可 以 操作 进程 0 的 
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页 表 和 页 目录 表 设 置 完 半 。 





执行 代码 如 下 《为 了 更 容易 读 恒 ， 我 们 在 源 代 
码 中 做 了 比较 详细 的 注释 ) : 





/代码 路 径 :， mm/memory.c: 
#define invalidate () \ 


asm_ ("movl%%eax, %%cr3": "a" (0) ) / 重 置 CR3 为 0 


int copy_page_tables (unsigned long from,unsigned long to,long size) 
{ 

unsigned long * from_page_table; 

unsigned long * to_page_table; 


unsigned long this_page; 


unsigned long * from_dir, *to_dir; 


unsigned long nr; 





/*0x3fffff 是 4 MB， 是 一 个 页 表 的 管辖 范围 ， 二 进 制 是 22 个 1，|| 的 两 
边 必须 同 为 0， 所 以 ，from 和 to 后 22 位 必须 都 为 0， 即 4MB 的 整数 倍 ， 意 
思 是 一 个 页 表 对 应 4 MB 连续 的 线性 地 址 空间 必须 是 从 0x000000 开 始 的 4 
MB 的 整数 倍 的 线性 地 址 ， 不 能 是 任意 地 址 开始 的 4 MB， 才 符合 分 页 的 
要 求 */ 

if ( (from & Ox3fffff) || (to& Ox3fffff) ) 

panic ("copy_page_tables called with wrong alignment") ; 

/# 一 个 页 目录 项 的 管理 范围 是 4 MB， 一 项 是 4 字 节 ， 项 的 地 址 就 是 
项 数 x4， 也 就 是 项 管理 的 线性 地 址 起 始 地 址 的 M 数 ， 比 如 : 0 项 的 地 址 
是 0， 管 理 范 围 是 0~4 MB，1 项 的 地 址 是 4， 管 理 范 围 是 4~8 MB，2 项 
的 地 址 是 8， 管 理 范 围 是 8 一 12MB..………. 之 >20 就 是 地 址 的 MB 数 ，&& 
0xffc 就 是 &111111111100b， 就 是 4 MB 以 下 部 分 清 零 的 地 址 的 MB 数 ， 
也 就 是 页 目录 项 的 地 址 */ 


from _dir= (unsigned long *) ( (from> >20) & 
Oxffc) ; /*_pg_dir=0*/ 


to_dir= (unsigned long *) ( (to>>20) &Oxffc) ; 

size= ( (unsigned) (size+Ox3fffff) ) >>22; //> >22 是 4MB 数 
for (; size-->0; from dir++，to_dir++) { 

if (1& *to_dir) 


panic ("copy_page_tables: already exist") ; 


if C! (1&*from_dir) ) 
continue; 


//*from_dir 是 页 目录 项 中 的 地 址 ，0xfffff000& 是 将 低 12 位 清 零 ， 高 
20 位 是 页 表 的 地 址 


from _page_table= (unsigned long *) (Oxfffff000&*from_dir) ; 
if C! (to_page_table= (unsigned long *) get_free_page O) ) ) 
return-1; /*Out of memory,see freeing*/ 


*to_dir= ( (unsigned long) to_page_table) |7; /7 即 111， 参 看 1.3.5 
节 的 注释 


nr= (from==0) ?0xA0: 1024; /0OxA0 即 160， 复 制 页 表 的 项 数 ， 


for (; nr-->0; from_page_table++, to_page_table++) {// 复 制 父 进 
程 页 表 


this _page=*from_page_table; 
if C! (1&this_page) ) 
continue; 


this_page&=~2; /设置 页 表 项 属性 ，2 是 010， 一 2 是 101， 代 表 用 
Py Rik. FE 


*to_page_table=this_page; 


if (this_page>LOW_MEM) {//1 MB 以 内 的 内 核 区 不 参与 用 户 分 页 


*from_page_table=this_page; 

this _page-=LOW_MEM; 

this _page > >=12; 

mem _map[this_page]++; /增加 引用 计数 ， 参 看 mem_init 
} 

} 


} 





invalidate © ; // 用 重 置 CR3 为 0， 刷 新 "页 变换 高 速 缓存 " 
return 0; 


} 


进程 1 此 时 是 一 个 空 染 子 ， 还 没有 对 应 的 程 
序 ， 它 的 页 表 叉 是 从 进程 0 的 页 表 复制 过 来 的 ， 它 
们 管理 的 页 面 完全 一 致 ， 也 就 是 它 暂 时 和 进程 0 共 
诗 一 僚 内 存 页 面 管 理 结构 ， 如 图 3-10 所 示 。 竺 将 来 














它 有 了 目 己 的 程序 ， 再 把 关系 解除 ， 并 重新 组 织 目 
己 的 内 存 管理 结构 。 


.4 进程 0 页 表 
os 640KB 1MB 16MB 
°° | 
( E WW wane 
进程 1 页 表 | i 





图 3-10 进程 0 和 进程 1 共享 页 表示 意图 


3.1.5 ”进程 1 共享 进程 0 的 文件 


返回 copy_process〈) 函数 中 继续 调整 。 设 置 
task_struct 中 与 文件 相关 的 成 员 ， 包 括 打 开 了 哪些 








文件 p- 二 filp[20]、 进 程 0 的 “当前 工作 目录 i 节点 结 
构 ”、“ 根 目录 i 节点 结构 ”以 及 “执行 文件 i 节点 结 





Ho 虽然 进程 0 中 这 些 数值 还 都 是 空 的 ， 进 程 0 只 
具备 在 主机 中 正常 运算 的 能 力 ， 沿 不 具备 与 外 设 以 
文件 形式 进行 交互 的 能 力 ， 但 这 种 共 圣 仍 有 意义 ， 
因为 父子 进程 创建 机 制 会 把 这 种 能 力 “ 和 遗传” 给 子 进 


FE o 


对 应 的 代码 如 下 : 


// 代 人 码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long none, 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss) 


retum-EAGAIN; 
} 


for (i=0; i<NR_OPEN; i++) /下 面 将 父 进程 相关 文件 属性 的 引 
用 计数 加 1， 表 明 父 子 进 程 共享 文件 


if (f=p-> filp[i]) 
f->f_count++; 

if Ccurrent-> pwd) 

current- > pwd- > i_count++; 
if (current->root ) 

current- > root->i_count++; 
if Ccurrent-> executable ) 


current- > executable- >i_count++; 


set _tss_desc (gdt+ (nr<<1) +FIRST TSS ENTRY, & (p-> 
tss) ) ; /设置 GDT 中 与 子 进程 相关 的 项 ， 参 看 sched.c 





3.1.6 ”设置 进程 1 在 GDT 中 的 表 项 


之 后 把 进程 1 的 TSS 和 LDT， 挂 接 在 GDT 中 ， 如 
图 3-11 所 示 ， 注 意 进程 1 在 GDT 中 所 占 的 位 置 。 
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图 3-11 将 进程 1 的 task_struct 与 GDT 挂 接 


执行 代码 如 下 : 





/代码 路 径 : kernel/fork.c: 

int copy_process (int nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 

long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss ) 


current- > executable- >i_count++; 


set_tss_desc (gdt+ (nr< <1) +FIRST_TSS_ENTRY, & (p-> 
tss) ) ; /设置 GDT 中 与 子 进程 相关 的 项 ， 参 看 sched.c 


set_Idt_desc (gdt+ (nr< <1) +FIRST_LDT_ENTRY, & (p-> 
Idt) ) ; 


p->state=TASK_ RUNNING; /*do this last,just in case*/// 设 置 子 进程 


3.1.7 ”进程 1 处 于 就 绪 态 








将 进程 1 的 状态 设置 为 就 绪 态 ， 使 它 可 以 参加 
进程 调度 ， 最 后 返回 进程 号 1。 请 注意 图 3-11 中 间 
代表 进程 的 进程 条 ， 其 中 ， 进 程 1 已 处 在 就 绪 态 。 
执行 代码 如 下 : 





/代码 路 径 : kernel/fork.c: 

int copy_process Cint nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 

long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss ) 


p->state=TASK_ RUNNING; /*do this last,just in case*/// 设 置 子 进程 


return last_pid; 


} 





全 此 ， 进 程 1 的 创建 工作 完成 ， 进 程 1 已 经 具备 
了 进程 0 的 全 部 能 力 ， 可 以 在 主机 中 正 第 地 运行 。 


进程 1 创建 完毕 后 ，copy_process () 函数 执行 
完毕 ， 返 回 sys_fork © call_copy_process O 的 
下 一 行 执行 ， 执 行 代码 如 下 : 
/代码 路 径 : kernel/system_call.s: 
_sys_fork: 
call _find_empty_process 
testl %eax, Y%eax 
js 1f 


push %gs 


pushl %esi 

pushl %edi 
pushl %ebp 
pushl %eax 


call _copy_process 





addl $20, %esp//copy_processi [+] 2 Jt, espt+t=20Htespis 20% 1 
的 栈 ， 也 就 是 清 前 面 压 的 gs、esi、 


1: ret//edi、ebp、eax， 注 意 : 内 核 栈 里 还 有 数据 。 
_system_call 中 的 pushl%eax 执 行 





清 _sys_fork 压 栈 的 5 个 寄存 右 的 值 ， 束 是 清 前 
面 压 的 gs、esi、edi、ebp、eax， 也 就 是 
copy_process () 的 前 5 个 参数 。 注 意 : eax 对 应 的 
是 copy_process () 的 第 一 个 参数 nr， 就 是 
copy_process ©) 的 返回 值 last_pid， 即 进程 1 的 进程 
号。 然后 返回 _system_call 中 的 


call_sys_call_table (, %eax, 4) 的 下 一 行 
pushl%eax 处 继续 执行 。 


先 检 查 当 前 进程 是 否 是 进程 0。 注 意 : 
pushl%eax 这 行 代 码 ， 将 3.1.6 节 中 返回 的 进程 1 的 进 
程 号 压 栈 ， 之 后 到 _ret_from_sys_call: 处 执行 。 


执行 代码 如 下 : 


/代码 路 径 : kernel/system_call.s: 


call _sys_call_table (, Y%eax, 4) 


pushl 9%eax#sys_fork 返 回 到 此 执行 ，eax 是 copy_process《〈) 的 返回 
值 last_pid 


movl _current，%eax# 当 前 进程 是 进程 0 


cmpl $0, state (%eax) #state 

jne reschedule# 如 果 进 程 0 不 是 就 绪 态 ， 则 进程 调度 
cmp! $0, counter (%eax) #counter 

je reschedule# 如 果 进 程 0 没 有 时 间 片 ， 则 进程 调度 
ret _from_sys_call: 

movl _current, %eax#task[0]cannot have signals 


cmpl _task, %eax 


je 3f#U R AREFE EEEO, BEE F3: 处 执行 。 当 前 进程 是 
进程 01! 


cmpw $0x0f,CS (%esp) #was old code segment supervisor? 
jne 3f 

cmpw $0x17, OLDSS (%esp) #was stack segment=0x17? 
jne 3f 

movl signal (%eax) , Y%ebx 

movl blocked (%eax) , %ecx 

notl %ecx 


andl %ebx, %ecx 


bsfl %ecx, Wecx 

je 3f 

btrl %ecx, Y%ebx 

movl %ebx,signal (%eax ) 
incl %ecx 

pushl %ecx 

call _do_signal 

popl %eax 


3: popl%eax# 如 果 是 进程 0， 则 直接 跳 到 这 个 地 方 执行 ， 将 7 个 寄存 
器 的 值 出 栈 给 CPU 


popl %ebx 
popl %ecx 
popl %edx 
pop %fs 
pop %es 
pop %ds 


iret 


#CPU 便 件 将 int 0x80 的 中 断 时 压 的 ss、esp、eflags、cs、eip 的 值 出 
栈 给 CPU 对 应 寄存 器 ，CS: EIP 指 向 fork〈) int 0x80 的 下 一 行 
if ( res>=0) 处 执行 


ee 


由 于 当前 进程 是 进程 0， 所 以 就 跳 转 到 标号 3 
处 ， 将 压 栈 的 各 个 寄存 器 数值 还 原 。 图 3-12 表 示 了 
init_task 中 清 栈 的 这 一 过 程 。 值 得 注意 的 是 
popl%eax 这 一 行 代码 ， 这 是 将 前 面 刚 刚 讲解 过 的 
pushl%eax 压 栈 的 进程 1 的 进程 号 ， 恢 复 给 CPU 的 
eax,eax 的 值 为 “1”。 


之 后 ，iret 中 断 返 回 ，CPU 硬 件 自动 将 int 0x80 
的 中 断 时 压 的 ss、esp、eflags、cs、eip 的 值 按 压 栈 
的 反 序 出 栈 给 CPU 对 应 寄存 器 ， 从 0 特权 级 的 内 核 
代码 转换 到 3 特权 级 的 进程 0 代码 执行 ，CS: EIP 指 
癌 fork〈) Hint 0x80 的 下 一 行 二 (_res>=0) 。 





对 应 的 执行 代码 如 下 : 





/代码 路 径 : include/unistd.h: 
int fork (void) 

{ 

long __res; 

__asm__volatile ("int$0x80" 


: "=a" (_ res) //_res 的 值 就 是 eax， 是 copy_process() 的 返回 值 
last_pid (1) 


: "0" CNR fork) ) ; 
if (_ res>=0) VWiret 后 ， 执 行 这 一 行 ! _ res 就 是 eax， 值 是 1 
return (int) _res; // 返 回 1! 


errno=-_ Tres; 


return-1; 


} 





在 讲述 执行 ff (C res>=0) 前 ， 先 关注 一 





下 : "=a" (res) 。 这 行 代码 的 意思 是 将 _res 的 值 
赋 给 eax， 所 以 证 (_res>=0) 这 一 行 代码 ， 实 际 上 
就 是 判断 此 时 eax 的 值 是 多 少 。 我 们 刚刚 介绍 了 ， 

这 时 候 eax 里 面 的 值 是 返回 的 进程 1 的 进程 号 1， 
return (type) res 将 “1 返回 。 回 到 3.1.1 节 中 

fork () 函数 的 调用 点 证 C! fork © ) 处 执行 ，! 
1 为 “ 假 ?>， 这 样 就 不 会 执行 到 init〈) 函数 中 ， 而 是 
进程 0 继续 执行 ， 接 下 来 就 会 执行 到 for G ) 


pause () 。 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 
void main (void) 


{ 


sti () ; 
move to user mode () ; 


if (! fork © )〉{/fork 的 返回 值 为 7，，if(! 1) 为 假 /*+we count on 
this going ok*/ 


init © ; /不 会 执行 这 一 行 


for (; ) pause () ; /执行 这 一 行 ! 


} 





图 3-12 形 象 地 表示 了 上 述 过 程 。 
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图 3-12 操作 系统 如 何 区 分 进程 0 与 进程 1 


3.2 ”内 核 第 一 次 做 进程 调度 


现在 执行 的 是 进程 0 的 代码 。 从 这 里 开始 ， 进 
程 0 准备 切换 到 进程 1 去 执行 。 


在 Linux 0.11 的 进程 调度 机 制 中 ， 通 种 有 以 下 
两 种 情况 可 以 产生 进程 切换 。 


1) 允许 进程 运行 的 时 间 结 束 。 


进程 在 创建 时 ， 痢 被 赋予 了 有 限 的 时 间 厂 ， 以 
保证 所 有 进程 每 次 部 只 执行 有 限 的 时 间 。 一 旦 进程 
的 时 间 片 被 曾 减 为 0， 束 说 明 这 个 进程 此 次 执行 的 
时 间 用 完了 ， 立 即 切换 到 其 他 进程 去 执行 ， 实 现 多 
进程 轮流 执行 。 


2) 进程 的 运行 停止 。 


当 一 个 进程 需要 等 竺 外 设 提供 的 数据 ， 或 等 
其 他 程序 的 运行 结果 .……: 或 进程 已 经 执行 完毕 时 ， 
在 这 些 情 况 下 ， 虽 然 还 有 剩余 的 时 间 片 ， 但 是 进程 
不 再 具备 进一步 执行 的 “人 馆 辑 条 件 ” 了 。 如 条 还 等 大 
时 钟 中 断 产 生 后 再 切换 到 别 的 进程 去 执行 ， 束 是 在 
浪费 时 间 ， 应 立即 切换 到 其 他 进程 去 执行 





这 两 种 情况 中 任何 一 种 情况 出 现 ， 都 会 叶 致 进 
程 切换 。 


进程 0 角色 特殊 。 现 在 进程 0 切换 到 进程 1 既 有 
SB ALN, MARDEN RE. RNS 
在 3.3.1 节 中 讲解 仿 速 进程 。 





进程 0 执行 for (; ) pause © ， 最 终 执行 到 


schedule O 函数 切换 到 进程 1， 如 图 3-13 所 示 。 
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图 3-13 进程 0 挂 起 并 执行 调度 程序 


pause 函 数 的 执行 代码 如 下 : 


/代码 路 径 : init/main.c: 
static inline_syscall0 (int,fork) 


static inline_syscall0 (int,pause ) 


move _to_user_mode () ; 

if (! fork () ) {/*we count on this going ok*/ 
init ©) ; 

} 

for (; ) pause () ; 


} 





pause () 函数 的 调用 与 fork ©) 函数 的 调用 一 


样 ， 会 执行 到 unistd.h 中 的 syscall0， 通 过 int 0x80 中 
Wr, *Esystem_call.s'# Hcall_sys_call_table (, 
%eax, 4) 映射 到 sys_pause © 的 系统 调用 函数 去 
执行 ， 具 体 步 又 与 3.1.1 节 中 调用 fork(〉 pK ar aR 
类 似 。 略 有 差别 的 是 ，fork ©) 函数 是 用 汇编 写 
的 ， 而 sys_pause〈) 函数 是 用 C 语 言 写 的 。 





进入 sys_pause《〈) KUE, PEIRE NE 
中 断 等 竺 状态， 如 图 3-13 中 第 一 步 所 示 ， 然 后 调用 
schedule () 函数 进行 进程 切换 ， 执 行 代 码 如 下 : 





/代码 路 径 : kernel/sched.c: 
int sys_pause (void) 
{ 


/将 进程 0 设置 为 可 中 断 等 竺 状态， 如 果 产 生 东 种 中 断 ， 或 其 他 进程 
给 这 个 进程 发 送 特 定 信 号 .……. 才 有 可 能 将 /这 个 进程 的 状态 改 为 就 绪 态 








current->state=TASK_ INTERRUPTIBLE; 


schedule () ; 


return 0; 


} 








在 schedule O 函数 中 ， 先 分 析 当 前 有 没有 必 
要 进行 进程 切换 ， 如 果 有 必要 ， 再 进行 具体 的 切换 
操作 。 


自 完 依据 task[64] 这 个 结构 ， 第 一 次 衣 历 所 有 
进程 ， 只 要 地 址 指针 不 为 空 ， 就 要 针对 它们 的 “ 报 
党 定时 值 alarm” 以 及 “信号 位 图 signal” 进 行 处 理 ( 我 
们 会 在 后 续 章 节 详 细 讲 解 信号 ， 这 里 先 不 深究 ) 。 
在 当前 的 情况 下 ， 这 些 处 理 还 不 会 产生 具体 的 效 
果 ， 尤 其 是 进程 0 此 时 并 没有 收 到 任何 信号 ， 它 的 
状态 是 “可 中 断 等 竺 状态 ”， 不 可 能 转变 为 "就绪 
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第 二 次 遍历 所 有 进程 ， 比 较 进 程 的 状态 和 时 间 
片 ， 找 出 处 在 就 绪 态 且 counter 最 大 的 进程 。 现 在 只 
有 进程 0 和 进程 1， 且 进程 0 是 可 中 断 等 待 状态 ， 不 
是 就 绪 态 ， 只 有 进程 1 处 于 就 绪 态 ， 所 以 ， 执 行 
switch_to (next) ， 切 换 到 进程 1 去 执行 ， 如 图 3-14 
中 的 第 一 步 所 示 。 








执行 代码 如 下 : 


/代码 路 径 : kernel/sched.c: 

void schedule (void) 

{ 

int i,next,c; 

struct task_struct ** p; 

/*check alarm,wake up any interruptible tasks that have got a signal*/ 


for (p=&LAST TASK; p>&FIRST_TASK; --p) 


if (*p) { 


if © (*p) ->alarm& & (*p) ->alarm<jiffies) {/ 如 果 设 置 了 定时 
或 定时 已 过 


(*p) ->signalj= (1<< (SIGALRM-1) ) ; /设置 SIGALRM 


(*p) ->alarm=0; //alarmia = 


if ( ( (*p) ->signal& ~ (_BLOCKABLE& (*p) -> 
blocked) ) && 


(*p) ->state==TASK_INTERRUPTIBLE) /现在 还 不 是 这 种 情况 


(*p) ->state=TASK_RUNNING; 


/*this is the scheduler proper: */ 
while (1) { 

c=-1; 

next=0; 

i=NR_TASKS; 
p=&task[NR_TASKS]; 


while (--i) { 


if (! *--p) 
continue; 


if ( (*p) ->state==TASK_RUNNING& & (*p) ->counter>c) // 
找 出 就 绪 态 中 counter 最 大 的 进程 


c= (*p) ->counter,next=i; 
} 
if Cc) break; 
for (p=&LAST TASK; p>&FIRST_TASK; --p) 
if (*p) 
(*p) ->counter= ( (*p) ->counter>>1) + 


(*p) ->priority; //Bcounter=counter/2+priority 


switch to (next) ; 
} 
/代码 路 径 : include/sched.h: 


ee 


/IFIRST_TSS_ENTRY < <35&100000, ( (unsigned long) n) << 
4， 对 进程 1 是 10000 


1//_TSS (1) 就 是 110000， 最 后 2 位 特权 级 ， 左 第 3 位 GDT，110 是 6 
即 GDT 中 tss0 的 下 标 


#define_TSS (n) ( ( C Cunsigned long) n) <<4) + 
(FIRST_TSS_ENTRY<<3) ) 


#define switch_to (n) {V/ 人 参看 2.9.1 节 

struct{long a,b; }_ tmp; V/ 为 jmp 的 CS、EIP 准 备 的 数据 结构 
_asm _ ("cmpl%%ecx, _current\n\t"\ 

"je 1Anw"V/ 如 果 进 程 n 是 当前 进程 ， 没 必要 切换 ， 退 出 


"movw%%dx，%1n\t"V/EDX 的 低 字 赋 给 *&&_tmp.b， 即 把 CS 赋 
给 .b 


"xchgl]%%ecx, _current\n\t"V/task[n]-task[current] 22 ## 


"Ijmp%0\n\t"V/ljmp#|_ tmp, _ tmp HA ime. BUPA. (ALESSI 
忽略 偏 移 


"cmpl%%ecx，_last_task_used_mathn\t"V/ 比 较 上 次 是 否 使 用 过 协 处 
理 器 


"jne 1f\n\t"\ 
"clts\n"V/ 清 除 CR0 中 的 切换 任务 标志 


"1: " 


: "m" (*& tmp.a) , "m" (*&_tmp.b) , V/aX{MEIP (A 
He) ，.b 对 应 CS 


"d" (_TSS (n) ) , "e" © Cong) task[n]) ) ; WEDX 是 TSS n 的 
索引 号 ，ECX 即 task[n] 


} 


程序 将 一 直 执 行 到 "jmp%0\n\t" 这 一 行 。ljmp 通 
过 CPU 的 任务 门 机 制 并 未 实际 使 用 任务 门 ， 将 CPU 
的 各 个 寄存 器 值 保 存在 进程 0 的 TSS 中 ， 将 进程 1 的 
TSS 数 据 以 及 LDT 的 代码 段 、 数 据 段 描述 符 数 据 恢 
复 给 CPU 的 各 个 寄存 器 ， 实 现 从 0 特权 级 的 内 核 代 
码 切 换 到 3 特权 级 的 进程 1 代码 执行 ， 如 图 3-14 中 的 


第 二 步 所 示 。 


》 的 


snitch: to UAHA 


第 二 步 : 准备 切换 到 进程 1 去 执行 御 _ 步 。 经 过 两 次 遍历 选择 了 进程 


进程 0 进程 1 


图 3-14 调度 进程 1 执行 


接 下 来 ， 轮 到 进程 1 执行 ， 它 将 进一步 构建 环 
境 ， 使 进程 能 够 以 文件 的 形式 与 外 设 交 互 。 


需要 提醒 的 是 ，pause ©) 函数 的 调用 是 通过 
int 0x80 中 断 从 3 特权 级 的 进程 0 代码 翻转 到 0 特权 级 
的 内 核 代 码 执 行 的 ， 在 _system_call 中 的 


call_sys_call_table (, %eax, 4) 中 调用 

sys pause () 函数 ， 并 在 sys_pause〈() 中 的 
schedule © 中 调用 switch © ， 在 switch © 中 
ljmp 进 程 1 的 代码 执行 。 现 在 ，switch © 中 ]jmp 后 
面 的 代码 还 没有 执行 ，call_sys_call table C, 
%eax，4) 后 续 的 代码 也 还 没有 执行 ，int 0x80 的 中 
WIA R [Al 


3.3 ”轮转 到 进程 1 执行 


在 分 析 进 程 1 如 何 开始 执行 之 前 ， 先 回顾 一 下 
进程 0 创建 进程 1 的 过 程 。 


在 3.1.3 节 中 讲解 调用 copy_process 函 数 时 曾 强 
调 过 ， 当 时 为 进程 1 设置 的 tss.eip 就 是 进程 0 调用 
fork () 创建 进程 1 时 int 0x80 中 断 导 致 的 CPU 硬件 
自动 压 栈 的 ss、esp、eflags、cs、eip 中 的 EIP 值 ， 这 
个 值 指 问 的 是 int 0x80 的 下 一 行 代码 的 位 置 ， 即 


if ( res>=0) . 





前 面 讲述 的 jmp 通 过 CPU 的 任务 门 机 制 自动 将 
进程 1 的 TSS 的 值 恢复 给 CPU， 目 然 也 将 其 中 的 
tss.eip 恢 复 给 CPU。 现 在 CPU 中 的 EIP 指 回 的 就 是 
forkP Jif (_res>=0) 这 一 行 ， 所 以 ， 进 程 1 就 要 





从 这 一 行 开 始 执行 。 


执行 代码 如 下 : 





/代码 路 径 : include/unistd.h: 
#define_syscall0 (type,name) \ 


int fork (void) 


long _ res; 

__asm__volatile ("int$0x80" 
: "=a" (_ res) 

: "0" (_ NR fork) ) ; 


if (__res>=0) /现在 从 这 行 开始 执行 ，copy_process 为 进程 1 做 的 
tss.eip 就 是 指向 这 一 行 


return (int) res; 


errno=-_ Tres; 


return-1; 


回顾 前 面 3.1.3 节 中 的 介绍 可 知 ， 此 时 的 _ res 
值 ， 就 是 进程 1 的 TSS 中 eax 的 值 ， 这 个 值 在 3.1.3 节 
中 被 写 死 为 0， 即 p->tss.eax=0， 因 此 ， 当 执行 到 
return (type) res 这 一 行 时 ， 返 回 值 是 0， 如 网 3- 
15 所 示 。 
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BP: WiK BW- +: 根据 eax 的 值 确定 返回 值 


进程 0 进程 1 


图 3-15 进程 1 开始 执行 的 状态 


返回 后 ， 执 行 到 main ©) 函数 中 证 〈! 
fork © ) 这 一 行 ，! 0 为 * 真 >”， 调 用 init © K 
数 ! 执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


if C! fork ©) ) {//! OAH, 
init O ; /这 次 要 执行 这 一 行 ! 代码 跨度 比较 大 ， 请 参看 3.1.3 节 
} 


} 


进入 init O 函数 后 ， 先 调用 setup ©) 函数 ， 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void init (void ) 


本 章 后 续 的 内 容 都 是 setup O 函数 实现 的 。 这 
个 函数 的 调用 与 fork © ~ pause © 函数 的 调用 类 
似 ; 略 有 区 别 的 是 setup () 函数 不 是 通过 
_syscall0 O 而 是 通过 _syscalll © 实现 的 ， 具 体 
的 实现 过 程 基本 类 似 ， 也 是 通过 int 0x80、 


_system_call, call_sys_call_table (, %eax, 4) ~ 





sys_setup ©) 。 


提醒 : 前 面 pause〈) 函数 的 那个 int 0x80 中 断 
还 没有 返回 ， 现 在 setup O 又 产生 了 一 个 中 断 。 


3.3.1 进程 1 为 安 儿 使 舟 文件 系统 做 准备 


这 一 节 的 内 容 涉及 sys_setup O 的 大 部 分 代 
码 ， 包 括 从 函数 开始 到 调用 rd_ljoad〈) 之 前 的 所 有 
代码 ， 技 术 路 线 比较 长 ， 代 码 很 多 ， 难 度 比较 大 ， 
hash_table 的 部 分 尤其 如 此 。 但 这 部 分 代码 的 目的 却 
很 单一 : 为 第 5 章 将 要 讲述 的 安装 硬盘 文件 系统 做 
准备 。 


这 个 过 程 大 概 经 过 3 个 步骤 ; 





1) ARDEA Las BS BE WES BL 


2) 读 取 硬盘 引导 块 ; 
3) 从 引导 块 中 获取 信息 。 
1. 进 程 1 设置 硬盘 的 hd_info 


根据 机 器 系统 数据 中 的 drive_info， 如 硬盘 的 柱 
面 数 、 人 磁头 数 、 届 区 数 ， 设 置 内 核 的 hd_info， 如 图 
3-16 所 示 。 


a OxOFFFF OxFFFFF Ox3FFFFF 0xSFFFFF 


OxFFFFFF 





化 hd_ info 


第 二 步 : 用 hd_info 结 构 中 
的 数据 来 测算 出 硬盘 的 起 始 
BK, UR RKB, J 
记录 在 hd 数据 结构 中 


图 3-16 初始 化 硬盘 控制 数据 结构 


panes ua cum TET OE RO 
| 进程 0 进程 1 
| 可 中 断 等 待 状态 | 就 绪 坊 
t 
当前 进程 

sys_setup 执 行 后 
: Mem hd_info sys_setup 执 行 前 
: hd drive_info 
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图 3-16 (È) 


具体 的 执行 代码 如 下 : 





/代码 路 径 : kernel/blk_dev/hd.c: 
struct hd_i_struct{ 


int head,sect,cyl,wpcom,|lzone,ctl; 


struct hd_i_ struct hd_info[]={{0, 0, 0, 0, 0, O}, {0, 0, 0, O, 


static struct hd_struct{ 

long start_sect; //¢a gy X 

long nr_sects; /总 而 区 数 

shd[5*MAX_HD]={{0, 0}, }; 

/*This may be used only once,enforced by'static int callable'*/ 


int sys_setup (void * BIOS) //*}LKIH H A LAG BIOS Wize 
drive info， 参 看 2.1 节 


static int callable=1; 

int i,drive; 

unsigned char cmos_disks; 
struct partition * p; 

struct buffer_head * bh; 


if C! callable) /控制 只 调用 一 次 


return-1; 

callable=0; 

#ifndef HD_TYPE 

for (drive=0; drive<2; drivet++) {// 读 取 drive_info 设 置 hd_info 
hd _info[drive].cyl=* (unsigned short *) BIOS; // 柱 面 数 

hd _info[drive].head=* (unsigned char*) (2+BIOS) ; // 人 磁头 数 
hd _info[drive].wpcom=* (unsigned short *) (5+BIOS) ; 

hd _info[drive].ctl=* (unsigned char *) (8+BIOS) ; 

hd _info[drive].lzone=* (unsigned short *) (12+BIOS) ; 


hd _info[drive].sect=* (unsigned char *) (14+BIOS) ; /每 磁道 而 
区 数 


BIOS+=16; 

} 

if Chd_info[1].cyl) /判断 有 几 个 硬盘 
NR _HD=2; 

else 


NR_HD=1; 


#endif 


/一 个 物理 硬盘 最 多 可 以 分 4 个 逻辑 盘 ，0 是 物理 盘 ，1 一 4 是 逻辑 
共 5 个 ， 第 1 个 物理 盘 是 0*5， 第 2 个 物理 盘 是 1*5 


for (i=0; i<NR HD; i++) { 
hd[i*5].start_sect=0; 
hd[i*5].nr_sects=hd_info[i].head* 
hd _info[i].sect * hd_info[i].cyl; 

} 

if ( Ccmos_disks=CMOS_READ (0x12) ) &Oxf0) 
if (cmos_disks & OxOf ) 

NR _HD=2; 

else 

NR _HD=1; 

else 

NR_HD=0; 

for (i=NR_HD; i<2; i++) { 


hd[i*5].start_sect=0; 


hd[i*5].nr_sects=0; 
} 


// 第 1 个 物理 盘 设 备 号 是 0x300， 第 2 个 是 0x305， 读 每 个 物理 硬盘 的 0 
号 块 ， 即 引导 块 ， 有 分 区 信息 


for (drive=0; drive<NR_HD; drive++) { 

if C! (bh=bread (0x300+drive*5, 0) ) ) {// 
printk ("Unable to read partition table of drive%d\n\r",, 
drive) ; 


panic ("") ; 








2.15 HABE ait AY | SPR BY eH LX. 


在 Linux 0.11 中 ， 人 硬盘 最 基础 的 信息 就 是 分 区 
表 ， 其 他 信息 都 可 以 从 这 个 信息 引导 出 来 ， 这 个 信 
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引导 块 ， 即 硬盘 的 0 号 逻辑 块 。 引 导 块 有 两 个 而 

区 ， 真 正 有 用 的 是 第 一 个 而 区 。 我 们 设 定 计算 机 只 
有 一 块 便 盘 。 下 面 把 人 硬盘 的 引号 块 恋 入 缓冲 区 ， 以 
便 后 续 程 序 解读 引导 块 中 的 信息 。 这 个 工作 通过 调 
用 bread() KAEI, bread © 可 以 理解 为 block 




















read。 


执行 代码 如 下 : 


/代码 路 径 : kernel/blk_dev/hd.c: 


// 第 1 个 物理 盘 设 备 号 是 0x300， 第 2 个 是 0x305， 读 每 个 物理 硬盘 的 0 
号 块 ， 即 引导 块 ， 有 分 区 信息 


for (drive=0; drive<NR HD; drivet++) { 
if C! (bh=bread (Ox300+drive*5, 0) ) ) { 


printk ("Unable to read partition table of drive%d\n\r",, 


drive) ; 


panic ("") ; 





进入 bread〈) 函数 后 ， 先 调用 getblk ©) K 
数 ， 在 缓冲 区 中 申请 一 个 空 亲 的 缓冲 块 。 


执行 代码 如 下 : 





/代码 路 径 : fs/buffer.c: 


struct buffer head * bread (int dev,int block) / 读 指 定 dev、block， 
一 块 便 盘 的 dev 是 0x300，block 是 0 


{ 
struct buffer_head * bh; 


if C! (bh=getblk (dev,block) ) ) // 在 缓冲 区 得 到 与 dev、block 相 
符合 或 空 亲 的 缓冲 块 


panic ("bread: getblk returned NULL\n") ; /现在 第 一 次 使 用 缓冲 
区 ， 不 可 能 没有 空闲 块 


if Cbh->b_uptodate) /现在 是 第 一 次 使 用 ， 找 到 的 肯定 是 未 被 使 用 
过 的 


return bh; 

ll _rw_block (READ,bh) ; 
wait _on_buffer (bh) ; 

if (bh->b_uptodate ) 
return bh; 

brelse (bh) ; 

return NULL; 


} 





申请 空闲 缓冲 块 的 主要 步 又， 在 图 3-17 中 已 有 
形象 的 说 明 。 以 下 将 结合 代码 来 深入 分 析 这 一 过 
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图 3-17 查找 缓冲 块 


在 getblk() 函数 中 ， 先 调用 


get_hash_table O) 函数 查找 哈 希 表 ， 检 索 此 前 是 否 


/ 


A FEF EME aE AY A IE ER (相同 的 设备 号 和 
hs) 已 经 读 到 缓冲 区 。 如 果 已 经 读 到 缓冲 区 ， 那 
就 不 用 再 费劲 从 便 盘 上 读 取 ， 下 接 用 现成 的 ， 如 图 
3-17 中 的 第 一 步 所 示 。 使 用 哈 硕 表 进行 查询 的 目的 


是 提高 得 询 速度 。 











执行 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 


/在 缓冲 区 得 到 与 dev、block 相 符合 或 空闲 的 缓冲 块 。dev: 0x300、 
block: 0 


struct buffer head * getblk (int dev,int block) 
{ 

struct buffer_head * tmp, *bh; 

repeat: 


if (bh=get_hash_table (dev,block) ) 


return bh; 

tmp=free_list; 

do{ 

if (tmp->b_count) 

continue; 

if (! bh|IBADNESS (tmp) <BADNESS (bh) ) { 
bh=tmp; 

if (! BADNESS (tmp) ) 


break; 


it Aget_hash_table © 函数 后 ， 调 用 
find_buffer O 函数 租 找 缓冲 区 中 是 含有 指定 设备 
号 、 块 号 的 缓冲 块 。 如 有 果 能 找到 指定 缓冲 块 ， 就 直 





接 用 。 





dev: 


执行 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 





/查找 哈 希 表 ， 确 定 缓冲 区 中 是 否 有 指定 dev、block 的 缓冲 块 。 
0x300, block: 0 


struct buffer_head * get_hash_table (int dev,int block ) 

{ 

struct buffer_head * bh; 

for (; ) { 

if C! (bh=fnd_buffer (dev,block) ) ) 

return NULL; // 现 在 是 第 一 次 使 用 ， 肯 定 没 有 已 经 读 到 绥 冲 区 的 块 
bh->b_count++; 

wait _on_buffer (bh) ; 


if (bh->b_dev==dev & & bh->b_blocknr==block ) 


return bh; 


bh->b_count--; 


} 


} 





SUE ee IR EK, RAX BN GY BEE 
在 已 读 入 的 缓冲 块 ， 也 就 是 说 hash_table 中 没有 挂 接 
任何 节点 ，find_buffer ©) 返回 的 一 定 是 NULL。 


执行 代码 如 下 : 





/代码 路 径 : fs/buffer.c: 


//NR_HASH 是 307， 对 于 dev: 0x300, block: 0 而 言 ， 
_hashfn (dev,block) 的 值 是 154 


#define_hashfn (dev,block) ( ( (unsigned) (dev/block) ) 
%NR_HASH) 


#define hash (dev,block) hash_table[_hashfn (dev,block) | 


/在 缓冲 区 碍 找 指 定 dev、block 的 绥 冲 块 

static struct buffer head * fnd_buffer (int dev,int block) 
{ 

struct buffer_head * tmp; 


for (tmp=hash (dev,block) ; tmp! =NULL; tmp=tmp->b_next) // 
HLE tmp->b_nextž NULL 


if (tmp->b_dev==dev & & tmp->b_blocknr==block ) 
return tmp; 
return NULL; 


} 





从 find_buffer () . get_hash_table () 函数 退 
出 后 ， 返 回 getblk〈) 函数 ， 在 空闲 表 中 申请 一 个 
新 的 空闲 缓冲 块 。 现 在 所 有 缓冲 块 都 是 绑 定 在 空闲 
表 中 的 ， 所 以 要 在 空闲 表 中 申请 新 的 缓冲 块 ， 如 图 


3-17 中 的 第 二 步 所 示 。 











执行 代码 如 下 : 





/代码 路 径 : fs/buffer.c: 


#define BADNESS (bh) ( © (bh) ->b_dirt<<1) + (bh) -> 
b_lock) /现在 b dirt、b lock 是 0，BADNESS (bh) 就 是 00 


struct buffer head * getblk (int dev,int block) 
{ 

struct buffer_head * tmp, *bh; 

repeat: 

if (bh=get_hash_table (dev,block) ) 

return bh; 

tmp=free_list; 

do{ 

if (tmp->b_count) //tmp->b_count Æ AO 
continue; 

if C! bh|IBADNESS (tmp) <BADNESS (bh) ) /bh 现 在 为 0 


bh=tmp; 


if (! BADNESS (tmp) ) /现在 BADNESS (tmp) 是 00， 取 得 空 
内 的 缓冲 块 ! 


break; 


/*and repeat until we find something good*/ 

while ( (tmp=tmp->b_next_free) ! =free_list) ; 
if C bh) {V 现 在 不 会 出 现 没 有 获得 空闲 缓冲 块 的 情况 
sleep _on ( &buffer_wait) ; 

goto repeat; 

} 

wait _on_buffer (bh) ; /缓冲 块 没有 加 锁 

if (bh->b_count) /现在 还 没有 使 用 绥 剖 块 

goto repeat; 

while (bh->b_dirt) {/ 绥 冲 块 的 内 容 没有 被 修改 
sync _dev (bh->b_dev) ; 

wait _on_buffer (bh) ; 


if (bh->b_count) 


goto repeat; 
} 


if (find_buffer (dev,block) ) /现在 虽然 获得 了 空闲 缓冲 块 ， 但 并 
没有 挂 接 到 hash 表 中 


goto repeat; 





申请 到 缓冲 块 后 ， 对 它 进 行 初始 化 设置 ， 并 将 
这 个 空闲 块 挂 接 到 hash table 上。 执行 代码 如 下 : 





/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block) 


if (find_buffer (dev,block) ) 
goto repeat; 


bh->b_count=1; /占用 


bh->b_dirt=0; 
bh->b_uptodate=0; 

remove _from_queues (bh) ; 
bh->b_dev=dev; 
bh->b_blocknr=block; 

insert _into_queues (bh) ; 


return bh; 








为 了 更 容易 理解 代码 ， 我 们 将 这 个 过 程 分 步 图 
示 出 来 ， 如 图 3-18 所 示 。 





1/ 代码 路 径 : fs/buffer.c: 


static inline void remove_from_queues (struct buffer_head * bh) 


{ 


/*remove from hash-queue*/ 


况 


出 现 





if (bh->b_next) //bh->b_next#7E-YNULL 
bh- >b_next- >b_prev=bh- >b_prev; 
if (bh->b_prev) /Wbh->b_prev 现 在 为 NULL 
bh->b_prev- >b_next=bh- >b_next; 


if (hash (bh->b_dev,bh->b_blocknr) ==bh) /现在 不 出 现 这 个 情 


hash (bh->b_dev,bh->b_blocknr) =bh->b_next; 
/*remove from free list*/ 


if (! (bh->b_prev_free) ||! (bh->b_next_free) ) /正常 时 不 会 


panic ("Free block list corrupted") ; 
bh->b_prev_free- >b_next_free=bh->b_next_free; 
bh->b_next_free- >b_prev_free=bh->b_prev_free; 
if (free_list==bh ) 


free _list=bh->b_next_free; 


bh->b_next_free->b_prev_free 


bh >b_prev_free ——— 7 < 


bh->b_next_free 


st 


tmp bh>b_prev free>b_next free 


AAT FT US Rs 


bhb_prev_free->b_next_free 


bi-)h_prev_frew-)h_next_ free = hk-)b sert froe: 
Br)h pent_ free Jh_prev_free = bbb prev fros 





free list 


执行 下 而 代码 后 的 状态 


bh>b prev free->b next free 
free list = th > b next free 





图 3-18 分 步 示 意图 


挂 接 hash_table 的 执行 代码 如 下 ， 分 步 示意 图 
如 图 3-19 所 示 。 


执行 下 面 代 码 后 的 状态 


fh >b_mext_free = free_list: 
Bi >b prev free = free list->b prev free: 
free_list-2b_prev_free>b next free = bh; 


free Lint>b_prev_ free = bhb_prev_free>b_next_free 
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图 3-19 分 布 示 意图 
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/代码 路 径 : fs/buffer.c: 


static inline void insert_into_queues (struct buffer_head * bh) 


/*put at end of free list*/ 

bh->b_next_free=free_list; 
bh->b_prev_free=free_list- >b_prev_free; 

free _list- >b_prev_free- >b_next_free=bh; 

free _list- >b_prev_free=bh; 

/*put the buffer in new hash-queue if it has a device*/ 
bh->b_prev=NULL; 

bh- >b_next=NULL; 

if C! bh->b_dev) 


return; 


bh->b_next=hash (bh->b_dev,bh->b_blocknr) ; 
hash (bh->b_dev,bh->b_blocknr) =bh; 


bh- >b_next->b_prev=bh; 


执行 完 getblk () 函数 后 ， 返 回 bread © K 
RH. </p> 





3. 将 找到 的 缓冲 块 与 请 求 项 挂 接 


返回 bread O ei, alFAll rw_block O 这 
个 函数 ， 将 缓冲 块 与 请 求 项 结构 挂 接 ， 如 图 3-20 所 


a 


人 小。 








Sone Ox9FFFF OxFFFFF OQx3FFFFF OxSFFFFF OxFFFFFF 


les etn nd don lle, 


terse 
tres 
. 
Se 
fee 
. 
Pees, 
tae 


tee 
en RE 
a E ia 

ttossoos 


E ron > l a: 
NTT E 


进程 0 进程 1 


EEE EERE EEE EEE EEE EEE EEE EE EEE EEE EEE EEE EEE EHH EEE EHH EEE EEE EHH HEHE EEE EEE EEEEEEEEEEEEEE EEE 


llL_rw block 执行 前 : 


oew 
. +. 

Pe ae 

p s. 


Ee 


读 请 求 


goog 


. 
eR RETR REE EERE REE EEE EEE EEE EERE EERE EE EERE EERE ERE EEE EERE EEE EEE EERE EEE EEE EERE EE 


R 3-20 缓冲 块 与 请 求 项 挂 接 


执行 代码 如 下 : 





/代码 路 径 : fs/buffer.c: 


struct buffer_head * bread (int dev,int block ) 
{ 

struct buffer_head * bh; 

if C! (bh=getblk Cdev,block) ) ) 

panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate) /新 申请 的 缓冲 区 肯定 没有 更 新 过 
return bh; 

ll _rw_block (READ,bh) ; 

wait _on_buffer (bh) ; 

if (bh->b_uptodate ) 

return bh; 

brelse (bh) ; 


return NULL; 





it AlL_rw_block () 函数 后 ， 先 判断 缓冲 块 对 


应 的 设备 是 否 存 在 或 这 个 设备 的 请 求 项 函数 是 否 挂 
接 正 常 。 如 果 存 在 且 正 第 ， 说 明 可 以 操作 这 个 缓冲 
块 ， 调 用 make_request() 函数 ， 准 备 将 绥 冲 块 与 
请 求 项 建立 关系 ， 执 行 代码 如 下 : 








/代码 路 径 : kernel/blk_dev/ll_rw_block.c: 

void ll_rw_block (int rw,struct buffer head * bh) 

{ 

unsigned int major; 

if ( (major=MAJOR (bh->b dev) ) > 
=NR_BLK_DEV|IWNR_BLK_DEV 是 7， 主 设备 号 0-6，>>=7 意 味 着 不 存 
TE 

! (blk_dev[major].request_fn) ) { 

printk ("Trying to read nonexistent block-device\n\r") ; 

return; 


} 


make _request (major,rw,bh) ; 


进程 1 继续 执行 ， 进 入 make_request () pk 
后 ， 先 要 将 这 个 缓冲 块 加 锁 ， 目 的 是 保护 这 个 缓冲 
块 在 解锁 之 前 将 不 再 被 任何 进程 操作 ， 这 是 因为 这 
个 缓冲 块 现在 已 经 被 使 用 ， 如 果 此 后 再 被 挪 作 他 
用 ， 里 面 的 数据 就 会 发 生 混乱 。 如 图 3-20 右 边 的 绥 
冲 块 buffer_head 所 示 ， 其 中 选中 的 那个 缓冲 块 对 应 
的 buffer_head 已 加 锁 。 














之 后 ， 在 请 求 项 结构 中 ， 申 请 一 个 空闲 请 求 
项 ， 准 备 与 这 个 缓冲 块 相 挂 接 。 值 得 注意 的 是 ， 如 
果 是 读 请 求 ， 则 从 整个 请 求 项 结构 的 最 末端 开始 寻 
找 空闲 请 求 项 ， 如 果 是 写 请 求 ， 则 从 整个 结构 的 2/3 
处 ， 申 请 空闲 请 求 项 。 这 和 是 因为 从 用 户 使 用 系统 的 
心理 角度 讲 ， 用 户 更 而 望 读 取 的 数据 能 更 快 地 显现 














出 来 ， 所 以 给 读 取 操作 以 更 大 的 空间 。 这 时 候 ， 请 
求 项 结构 是 第 一 次 被 使 用 ， 而 且 是 读 请 求 ， 所 以 在 
请 求 项 结构 的 末端 找到 一 个 空闲 的 请 求 项 ， 如 图 3- 
20 中 的 request[32] 结 构 所 示 ， 其 中 的 最 后 一 项 已 被 
选中 。 之 后 ， 绥 冲 块 与 请 求 项 正式 挂 接 ， 并 对 这 个 
请 求 项 各 个 成 员 进 行 初始 化 。 























执行 代码 如 下 : 





/代码 路 径 : kernelblk_dewll_rw_block.c: 

static inline void lock_buffer (struct buffer head * bh) 
{ 

cli ©) ; 

while (bh->b_lock) /现在 还 没 加 锁 

sleep _on (&bh->b_wait) ; 


bh->b_lock=1; /加 锁 


static void make_request (int major,int rw,struct buffer_head * bh) // 
{ 

struct request * req; 

int rw_ahead; 

/*WRITEA/READA is special case-it is not really needed,so if the*/ 
/*buffer is locked,we just forget about it,else it's a normal read*/ 

if (rw_ahead= (rw==READA||rw==WRITEA) ) { 

if (bh->b_lock) /现在 还 没有 加 锁 

return; 

if (rw==READA) /放弃 预 读 写 ， 改 为 普通 读 写 

rw=READ; 

else 


rw=WRITE; 


if (rw! =READ& &rw! =WRITE) 
panic ("Bad block dev command,must be R/W/RA/WA") ; 
lock _buffer (bh) ; /加 锁 


if ( (qw==WRITE& & ! bh->b_dirt) || (rw==READ& & bh-> 
b_uptodate) ) {// 现 在 还 没有 使 用 


unlock buffer (bh) ; 


return; 


repeat: 

/*we don't allow the write-requests to fill up the queue completely: 
*we want some room for reads: they take precedence. The last third 
*of the requests are only for reads. 

x 

if (rw==READ) // 读 从 尾 端 开始 ， 写 从 2/3 处 开始 
req=request+NR_REQUEST; 

else 


req=requestt ( (NR_REQUEST*2) /3) ; 


/*find an empty request*/ 





while (--req>=request) //M Jalal Ate a TWN ORI, Æ 
blk_dev_init 中 ，dev 初 始 化 为 -1， 即 空闲 


if (req->dev<0) /找到 空闲 请 求 项 

break; 

/*if none found,sleep on new requests: check for rw_ahead*/ 
if (req<request) { 

if (rw_ahead) { 

unlock _buffer (bh) ; 

return; 

} 

sleep _on ( &wait_for_request) ; 

goto repeat; 

} 

/*fill up the request-info,and add it to the queue*/ 
req->dev=bh->b_dev; /设置 请 求 项 


req- 之 cmd=rw; 


req- > errors=0; 

req- > sector=bh->b_blocknr< <1; 
req- > nr_sectors=2; 

req- > buffer=bh- > b_data; 

req- > waiting=NULL; 

req- > bh=bh; 

req- >next=NULL; 

add _request (major+blk_dev,req) ; 


} 





Vil Hadd_request O PRAM, WE RKI RA A On 
载 该 请 求 项 ， 进 入 add_request © 后 ， 先 对 当前 人 硬 
盘 的 工作 情况 进行 分 机 ， 然 后 设置 该 请 求 项 为 当前 
请 求 项 ， 并 调用 人 硬盘 请 求 项 处 理 冰 数 Cdev- > 
request_fn) © ， 即 do_hd_request © 水 数 去 给 便 


ha AIS Eig So AB-21' P24 tH TERNE a 


与 do_hdq request ©) 函数 的 对 应 关系 。 
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“i 请 求 项 函数 控制 结构 
do hd request blk dev[7] / 
空间 i Salas 
通过 blk_dev 结 构 找 到 硬盘 请 求 
项 处 理 函 数 ， 准 备 下 达 读 盘 命 令 


进程 0 进程 1 


图 3-21 将 请 求 项 与 便 盘 处 理 函 效 挂 接 


执行 代码 如 下 : 





/代码 路 径 : kernel/blk_dev/ll_rw_block.c: 


static void add_request (struct blk_dev_struct * dev,struct request * 
req) 


struct request * tmp; 
req- >next=NULL; 
cli ©) ; 
if (req->bh) 
req- > bh->b_dirt=0; 
if (! (tmp=dev->current_request) ) { 
dev- > current_request=req; 
sti © ; 
(dev->request_fn) (Ò ; //do_hd_request () 
return; 
} 


for (; tmp->next; tmp=tmp->next) // 电 梯 算 法 的 作用 是 让 磁盘 人 磁 
头 的 移动 距离 最 小 


if ( (IN_ORDER (tmp,req) || 
! IN_ORDER (tmp,tmp->next) ) & & 
IN_ORDER (req,tmp->next) ) 


break; 


req->next=tmp->next; // 挂 接 请 求 项 队列 
tmp->next=req; 
sti O ; 


} 


ERRIENT 


进入 do_hd _ request © 国 数 去 执行 ， 为 谈 盘 做 
最 后 准备 工作 。 具 体 的 准备 过 程 如 图 3-22 所 示 。 
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进程 0 进程 1 


图 3-22 该 盘 操作 前 的 主要 准备 工作 


先 通过 对 当前 请 求 项 数据 成 员 的 分 析 ， 解 析出 
需要 操作 的 磁头 、 扇 区 、 柱 面 、 操 作 多 少 个 忆 
区 .….. 之 后 ， 建 立 硬 盘 读 盘 必 要 的 参数 ， 将 磁头 移 
动 到 0 柱 面 ， 如 图 3-22 中 第 二 步 所 示 ; 之 后 ， 针 对 
命令 的 性 质 ( 读 / 写 ) 给 硬盘 发 送 操作 命令 。 现 在 是 


读 操作 《〈 读 硬盘 的 引导 块 ) ， 所 以 接 下 来 要 调用 
hd_out O 函数 来 下 达 最 后 的 硬盘 操作 指令 。 注 意 
看 最 后 两 个 实 参 ，WIN_READ 表 示 接 下 来 要 进行 读 
操作 ，read_intr () 是 读 盘 操作 对 应 的 中 断 服 务 程 
序 ， 所 以 要 提取 它 的 函数 地 址 ， 准 备 挂 接 ， 这 一 动 
作 反映 在 图 3-22 中 的 第 三 步 。 请 注意 ， 这 是 通过 
hd_out ©) 函数 实现 的 ， 读 盘 请 求 就 挂 接 

readintr O ; WES tt, AMA 


read_intr () ， 而 是 write intr () J. 





执行 代码 如 下 : 


/代码 路 径 : kemel/blk_dev/hd.c: 
void do_hd_request (void) 


{ 


int i,r; 


unsigned int block,dev; 

unsigned int sec,head,cyl; 

unsigned int nsect; 

INIT REQUEST; 

dev=MINOR (CURRENT->dev) ; 

block=CURRENT- > sector; 

if (dev >=5*NR_HD]||block+2>hd[dev].nr_sects) { 

end _request (0) ; 

goto repeat; 

} 

block+=hd|dev].start_sect; 

dev/=5; 

_asm ("divl%4": "=a" (block) , "=d" (sec) : "0" (block) , ' 
"r" Chd_info[dev].sect) ) ; 

_asm ("divl%4": "=a" (cyl) , "=d" (head) : "0" (block) , " 
"r" Chd_info[dev].head) ) ; 


sect+; 


nsect=CURRENT-~>nr_sectors; 

if (reset) { 

reset=0; // 置 位 ， 防 止 多 次 执行 证 (reset) 
recalibrate=1; / 置 位 ， 确 保 执行 下 面 的 证 (recalibrate ) 


reset hd (CURRENT DEV) ; // 将 通过 调用 hd_out 向 硬盘 发 送 
WIN_SPECIFY 命 令 ， 建 立 人 硬盘 读 盘 必要 的 参数 


return; 

} 

if (recalibrate) { 

recalibrate=0; // 置 位 ， 防 止 多 次 执行 if (recalibrate) 
hd _out (dev,hd info[CURRENT DEV].sect, 0, 0, O, 


WIN _RESTORE, &recal_intr) ; // 将 向 人 硬盘 发 送 WIN_RESTORE 
命令 ， 将 磁头 移动 到 0 柱 面 ， 以 便 从 硬盘 上 读 取 数据 


return; 

} 

if (CURRENT->cmd==WRITE) { 

hd _out (dev,nsect,sec,head,cyl,.WIN_WRITE, &write_intr) ; 


for G=0; i<3000&&! (r=inb p (HD_STATUS) & 


DRQ_STAT) ; i++) 
/*nothing*/; 
if (! r) { 
bad _rw_intr ©) ; 
goto repeat; 
} 
port _write (HD_DATA,CURRENT->buffer, 256) ; 
}else if (CURRENT->cmd==READ) { 


hd _out (dev,nsect,sec,head,cyl,WIN_READ, &read_intr) ; /注意 
这 两 个 参数 


}else 
panic ("unknown hd-command") ; 


} 








进入 hd_out《〈) 函数 中 去 执行 读 盘 的 最 后 一 
步 : 下 达 读 盘 指 令 ， 如 图 3-23 中 第 一 步 押 示 。 
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图 3-23 给 硬盘 闯 口 寄存 部 传递 参数 


执行 代码 如 下 : 





/代码 路 径 : kernel/blk_dev/hd.c: 


static void hd_out (unsigned int drive,unsigned int nsect,unsigned int 
sect, 


unsigned int head,unsigned int cyl,unsigned int cmd, 


void (*intr_addr) (void) ) /对 比 调用 的 传 参 WIN_READ，& 
read_intr 


register int port asm ("dx") ; 

if (drive>1||head> 15) 

panic ("Trying to write bad sector") ; 
if (! controller_ready () ) 

panic ("HD controller not ready") ; 


do _hd=intr_addr; // 根 据 调 用 的 实 参 决定 是 read_intr 还 是 write_intr， 
现在 是 read_intr 


outb_p (hd_info[drive].ctlHD_CMD) ; 
port=HD_DATA; 

outb _p (hd_info[drive]. wpcom>>2, ++port) ; 
outb _p (nsect, ++port) ; 

outb _p (sect, ++port) ; 

outb_p (cyl, ++port) ; 

outb_p (cyl>>8, ++port) ; 


outb_p (OxA0| (drive<<4) |head, ++port) ; 


outb (cmd, ++port) ; 

} 

/代码 路 径 : kernel/system_call.s: 
_hd_interrupt: 


1: xorl%edx, %edx 
xchgl _do_hd, %edx 
testl %edx, Y%edx 
jne 1f 


movl $_unexpected_hd_interrupt, %edx 





FP, do_hd=intr_addr; 这 一 行 是 把 读 盘 服务 
程序 与 使 盘 中 断 操 作 程 序 相 挂 接 ， 这 里 面 的 do_hd 
是 System_call.s 中 _hd_interrupt 下 面 xchgl_do_hd， 


%edx 这 一 行 所 摘 述 的 内 容 。 








MERMERE, AT DAE Re WY i xe LS 


read intr, WRES, EERME 








write intr () pea. 





便 盘 开始 将 引导 块 中 的 数据 不 断 读 入 它 的 缓存 
中 ， 同 时 ， 程 序 也 返回 了 ， 将 会 沿 痢 前 面 调用 的 反 
AW, BWhd_out O 函数 、do_hd_request © P&I 





4. add_request © 图 数 、make_redquest () P&I 
4X. lrw_block () RZ, —Hiklelbread ©) 函数 


中 。 


现在 ， 硬 盘 正在 继续 读 引导 块 。 如 果 程 序 继续 
执行 ， 则 需要 对 引导 块 中 的 数据 进行 操作 。 但 这 些 








数据 还 没有 从 硬盘 中 读 完 ， 所 以 调用 
wait_on_buffer © pKa, FERC! 


执行 代码 如 下 : 





/代码 路 径 : fs/buffer.c: 

struct buffer_head * bread (int dev,int block ) 
{ 

struct buffer_head * bh; 

if (! (bh=getblk Cdev,block) ) ) 

panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate ) 

return bh; 

ll_rw_block (READ,bh) ; 

wait _on_buffer (bh) ; /将 等 待 缓冲 块 解锁 的 进程 挂 起 
if (bh->b_uptodate ) 


return bh; 


brelse (bh) ; 
return NULL; 


} 


进入 wait_on_buffer() 函数 后 ， 判 断 刚 才 申 请 
到 的 缓冲 块 是 否 被 加 锁 。 现 在 ， 绥 冲 块 确实 加 锁 
了 ， 调 用 sleep on O 函数 。 如 图 3-24 中 的 第 二 步 
所 示 。 执 行 代码 如 下 : 








/代码 路 径 : fs/buffer.c: 

static inline void wait_on_buffer (struct buffer head * bh) 
{ 

cli ©) ; 

while (bh->b_lock) /前 面 已 经 加 锁 

sleep _on (&bh->b_wait) ; 


sti () ; 
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第 一 步 ， 关 中断 





„AR 
Pod 2 ; “gleép .on Wo buffer ts) 
schedule | i 
第 四 步 : 热 硬盘 还 在 不 断 读 入 数据 
行进 程 调 度 fai #t 一 


第 二 步 : 调用 sieep on 


进程 0 进程 1 


Al 3-24 进程 1 挂 起 并 执行 调度 


进入 sleep on《〈) 函数 后 ， 将 进程 1 设置 为 不 可 
中 断 等 待 状态 ， 如 图 3-24 中 第 三 步 所 示 ， 进 程 1 挂 
起 ， 然 后 调用 schedule O 函数 ， 准 备 进程 切换 ， 
执行 代码 如 下 : 


/代码 路 径 :， kernel/sched.c: 


void sleep_on (struct task_struct ** p) 


struct task_struct * tmp; 

if (C! p) 

return; 

if (current==& (init_task.task) ) 

panic ("task[0]trying to sleep") ; 

tmp="p; 

*p=current; 

current- > state=TASK_UNINTERRUPTIBLE; 
schedule () ; 

if (tmp) 


tmp- > state=0; 





5.55 FF ET LEY, LEE Vad RE) PR BE EO 


进入 Schedule O 函数 后 ， 切 换 到 进程 0 去 执 
行 。 图 3-25 给 出 了 切换 过 程 的 主要 步骤 。 


ee Ox9FFFF OxFFFFF Ox3FFFFF OxSFFFFF 


—o— as 


i 第 一 步 ， 开 中 断 ， 由 于 每 个 
E a 有 独立 R 
F T A TTA 进程 有 独立 的 EFLAG 标志 位 
| É schedule 
] switch_to 
i 人 
接着 刚才 进程 0 的 切换 点 的 下 一 条 指令 继续 执行 DA A 
“cmpl %%ecx, last task used math\n\t"\ BPTI ZEA TE A BE 
第 三 步 ， 执行 进程 调度 fib Ht —— 
TOT oer eae ee ee nec 
进程 0 进程 1 


| 可 中 断 等 待 状态 | 可 中 断 等 待 状 态 
: 当前 进程 
i 第 二 步 ， 切 换 到 进程 0 


图 3-25 切换 到 进程 0 去 执行 


具体 执行 步 又 在 3.2 市 中 己 经 说 明 。 但 第 二 次 所 
历 task[64] 的 时 候 ， 与 3.2 节 中 执行 的 结果 不 一 样 。 
此 时 只 有 两 个 进程 ， 进 程 0 的 状态 是 可 中 断 等 竺 状 
态 ， 进 程 1 的 状态 也 已 经 刚刚 被 设置 成 了 不 可 中 断 
SIPAS. EAER E RRE EA 
多 且 必 须 是 丈 绪 态 ， 即 代码 “if C Cp) -> 
state==TASK_RUNNING& & (*p) ->counter> 
c) ”给 出 的 条 件 。 现 在 两 个 进程 都 不 是 就 绪 态 ， 鬼 
照 第 规 的 条 件 无 法 切换 进程 ， 没 有 进程 可 以 执行 。 





这 是 一 个 非常 尴 罚 的 状态 。 


操作 系统 的 设计 者 对 这 种 状态 的 解决 方案 是 : 
强行 切换 到 进程 0! 


注意 : c 的 值 将 仍然 是 -1， 所 以 next 仍 然 是 0， 


这 个 next 就 是 要 切换 到 进程 的 进程 号 。 可 以 看 出 ， 
如 果 没 有 合适 的 进程 ，next 的 数值 将 永远 是 0， 就 会 
切换 到 进程 0 去 执行 ! 


执行 代码 如 下 : 





/代码 路 径 :， kernel/sched.c: 


void schedule (void) 


while (1) { 

c=-1; 

cnext=0; 
ci=NR_TASKS; 

cp= &task[NR_TASKS]; 
cwhile (--i) { 


cif (! *--p) 


continue; 
if ( (*p) ->state==TASK_RUNNING& & (*p) ->counter>c) 
c= (*p) ->counter,next=i; 
} 
if (c) break; 
for (p=&LAST TASK; p>&FIRST_TASK; --p) 
if (*p) 
(*p) ->counter= ( (*p) ->counter>>1) + 
(*p) ->priority; 
} 


switch to (next) ; //next 是 0! 





调用 switch_ to (0) 执行 代码 如 下 : 





/代码 路 径 : kernel/sched.h: 


#define switch to (n) {\ 


struct{long a,b; }_ tmp; \ 


asm__ ("cmpl%%ecx, _current\n\t"\ 


"je 1f\n\t"\ 
"movw%%dx, %1\n\t''\ 


"xchgl%%ecx, _current\n\t"\ 





jmp%0ONmxt"V/ 跳 转 到 进程 0， 参 看 3.2 节 中 有 关 switch_to Cn) 的 讲 
解 及 代码 解释 


"cmpl%%ecx, _last_task_used_math\n\t"\ 

"jne 1f\n\t"\ 

"clts\n"\ 

"1: 'N 

: "m" (*& tmp.a) , "m" (*& tmp.b) , \ 


"d" (C TSS (n) ) , "c" ( Cong) task[n]) ) ; \ 


} 





switch_to (0) 执行 完 后 ， 已 经 切换 到 进程 0 去 
执行 。 前 面 3.2 节 中 已 经 说 明 ， 当 时 进程 0 切换 到 进 


程 1 时 ， 是 从 switch_to (1) 的 由 jmp%0Nxt" 这 一 行 切 
换 走 的 ，TSS 中 保存 当时 的 CPU 所 有 寄存 器 的 值 ， 
其 中 CS、EIP 指 向 的 就 是 它 的 下 一 行 ， 所 以 ， 现 在 
进程 0 要 从 "cmpl%%ecx， 





_last_task_used_mathn\t” 这 行 代 码 开 始 执 行 ， 如 图 
3-25 中 的 第 三 步 所 示 。 





将 要 执行 的 代码 如 下 : 


/代码 路 径 : kernel/sched.h: 

#define switch_to (n) {\ 

struct{long a,b; } tmp; 

_asm _ ("cmpl%%ecx, _current\n\t"\ 
"je 1f\n\t"\ 

"movw%%dx, %1\n\t"\ 


"xchgl%%ecx, _current\n\t"\ 


"ljmp%O0\n\t""\ 


"cmpl%%ecx，_last_task_used_mathn\t"V/ 从 这 一 行 开始 执行 ， 此 时 
是 进程 0 在 执行 ，0 特 权 级 


"jne 1f\n\t"\ 

"clts\n"\ 

"1: ™ 

: "m" (*& tmp.a) , "m" (*& tmp.b) , \ 
"a" (C TSS (n) ) , "eœ" © Cong) task[n]) ) ; \ 


} 





回顾 3.2 节 ， 妆 时 进程 0 切换 到 进程 1 是 从 
pause () 、sys_pause () 、schedule () 、 
switch_to (1)〉 这 个 调用 路 线 执行 过 来 的 。 现 在 ， 
switch_to (1) 后 半 部 分 执行 完毕 后 ， 束 应 该 返回 
sys_pause () 、for (; ) pause () 中 执行 了 。 


pause 这 个 函数 将 在 for G ) 这 个 循环 里 面 被 





反复 调用 ， 所 以 ， 会 继续 调用 schedule 函 数 进 行进 
程 切换 。 而 再 次 切换 的 时 候 ， 由 于 两 个 进程 还 都 不 
是 就 绪 态 ， 按 照 前 面 讲述 过 的 理由 ， 当 所 有 进程 都 
挂 起 的 时 候 ， 内 核 会 执行 switch_to 强 行 切换 到 进程 
0。 








现在 ，switch_to 中 情况 有 些 变 
Av, "cmpl%%ecx, _current\n\t’“je 1fn\t”* 的 意思 
是 : 如 果 切 换 到 的 进程 就 是 当前 进程 ， 就 跳 转 到 下 
面 的 *1:， ”处 直接 返回 。 此 时 当前 进程 正 是 进程 0， 
要 切换 到 的 进程 也 是 进程 0， 正 好 符合 这 个 条 件 。 


执行 代码 如 下 : 
/代码 路 径 : init/main.c: 


void main (void) 


{ 


ee 


for (; ) pause () ; 

} 

/代码 路 径 : kernel/sched.h: 

#define switch_to (n) {\ 

struct{long a,b; } tmp; \ 

_asm _ ("cmpl%%ecx, _current\n\t"\ 
"je 1f\n\t"\ 

"movw%%dx, Y%1\n\t"'\ 

"xchg]%%ecx, _current\n\t"\ 
"Ijmp%0\n\t"\ 

"cmpl%%ecx, _last_task_used_math\n\t"\ 
"jne 1f\n\t"\ 

"clts\n"\ 

"L: 'N 

: "m" (*& tmp.a) , "m" (*& tmp.b) , \ 


"d" (C TSS (n) ) , "c" © Cong) task[{n]) ) ; \ 


所 以 ， 又 回 到 进程 0《〈 注 意 : 不 是 切换 到 进程 
0) 。 


循环 执行 这 个 动作 ， 如 图 3-26 所 示 。 


从 这 里 可 以 看 出 操作 系统 的 设计 者 为 进程 0 设 
计 的 特殊 职能 : 当 所 有 进程 部 挂 起 或 没有 任何 进程 
执行 的 时 候 ， 进 程 0 融 会 出 来 维持 操作 系统 的 基本 
运转 ， 等 竺 挂 起 的 进程 具备 可 执行 的 条 件 。 业 内 人 
十 也 称 进程 0 为 全速 进程 ， 很 像 维持 汽车 等 行 驾 驶 
员 踩 油门 的 念 速 状 态 那样 维护 计算 机 的 仿 速 状态 。 











注意 : 硬盘 的 读 写 速度 远 低 于 CPU 执行 指令 的 
速度 〈2 一 3 个 量 级 ) 。 现 在 ， 候 盘 仍 在 忙 痢 把 指定 
的 数据 读 到 它 的 缓存 中 .……. 
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schedule 第 一 步 ，sys_pause 不 断 循环 


| switch_to 
EIP 
当前 进程 仍然 是 进程 0 
“je 1f\n\t” \ 


硬盘 还 在 不 断 读 入 数据 
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ge 
进程 0 进程 1 
i 可 中 断 等 待 状态 | 可 中 断 等 待 状态 
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图 3-26 进程 0 的 循环 执行 过 程 
6. 进 程 0 执行 过 程 中 发 生硬 盘 中 晰 
循环 执行 了 一 段 时 间 后 ， 人 硬盘 在 某 一 时 刻 把 一 
个 而 区 的 数据 读 出 来 了 ， 产 生硬 盘 中 断 。CPU 接 到 
中 断 指令 后 ， 终 止 正 在 执行 的 程序 ， 终 目的 位 置 肯 


定 是 在 pause () 、Sys_pause () ~ schedule () 、 


switch_to (n) 循环 里 面 的 某 行 指令 处 ， 如 图 3-27 中 
的 第 一 步 所 示 。 
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第 一 步 ， 硬 盘 中 断 产生 ， 硬 
盘 中 断 服务 程序 开始 执行 


2 j 


l 第 二 步 : 将 数据 载 入 指定 缓冲 块 中 


硬盘 还 在 不 断 读 出 数据 
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图 3-27 WERP cb SH Re 


然后 转 去 执行 便 熏 中 断 服务 程序 。 执 行 代码 如 





/代码 路 径 : kernel/system_call.s: 
_hd_interrupt: 

pushl %eax// 保 存 CPU 的 状态 
pushl %ecx 

pushl %edx 

push %ds 

push %es 

push %fs 

movl $0x10, %eax 

mov %ax, %ds 

mov %ax, %es 

movl $0x17, %eax 

mov %ax, %fs 

movb $0x20, %al 


outb %al, $0xAO 


jmp 1f 

1: jmp 1f 

1: xorl%edx, %edx 

xchgl _do_hd, %edx 

testl %edx, %edx 

jne 1f 

movl $_unexpected_hd_interrupt, %edx 
1: outb%al, $0x20 


call*%edx 


ee 


别 筷 了 中 断 会 目 动 压 栈 ss、esp、eflags、cs、 
eip， 硬 盘 中 断 服务 程序 的 代码 接着 将 一 些 寄 存 器 的 
数据 压 栈 以 保存 程序 的 中 断 处 的 现场 。 之 后 ， 执 行 
_do_hdq 处 的 读 盘 中 断 处 理 程序 ， 对 应 的 代码 应 该 是 


call*9%oedx 这 一 行 。 这 个 edx 里 面 是 读 盘 中 上 断 处 理 程 


序 read_intr 的 地 址 ， 参 看 hd_out O 函数 的 讲解 及 
代码 注释 。 


read intr O 函数 会 将 已 经 读 到 硬盘 缓存 中 的 
数据 复制 到 刚才 被 锁定 的 那个 缓冲 块 中 《注意 : 锁 
定 是 阻止 进程 方面 的 操作 ， 而 不 是 阻止 外 设 方面 的 
操作 ) ， 这 时 1 个 扇 区 256 字 〈512 字 节 ) 的 数据 读 
入 前 面 申请 到 的 缓冲 块 ， 如 图 3-27 中 的 第 二 步 所 
示 。 执 行 代码 如 下 : 








/代码 路 径 : kernel/blk_dev/hd.c: 
static void read_intr (void) 

{ 

if Cwin_result © ) { 

bad _rw_intr ©) ; 


do _hd_request () ; 


return; 

} 

port _read (HD_DATA,CURRENT->buffer, 256) ; 
CURRENT- > errors=0; 
CURRENT- > buffer+=512; 
CURRENT- >sector++; 

if (--CURRENT->nr_sectors) { 
do _hd= &read_intr; 

return; 

} 

end _request (1) ; 

do _hd_request () ; 


} 








但 是 ， 引 导 块 的 数据 是 1024 字 节 ， 请 求 项 要 求 
的 也 是 1024 字 节 ， 现 在 仅 读 出 了 一 半 ， 硬 盘 会 继续 





读 盘 。 与 此 同时 ， 在 得 知 请 求 项 对 应 的 绥 冲 块 数据 
没有 读 完 的 情况 下 ， 内 核 将 再 次 把 read_intr() 9h 
定 在 便 盘 中 断 服务 程序 上 ， 以 竺 下 次 使 用 ， 之 后 中 
WRITER H 





进程 1 仍 处 在 被 挂 起 状态 ，pause O 、 
sys_pause () . schedule (Ò 、switch_to (0) i 
从 刚才 硬盘 中 断 打 断 的 地 方 继续 循环 ， 硬 盘 继 续 读 


整个 过 程 如 图 3-28 所 示 。 
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| switch_to 第 一 步 ， sys_pause 不 断 循环 
EIP 
当前 进程 仍然 是 进程 0 
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图 3-28 进程 0 继续 循环 执行 


又 过 了 一 段 时 间 后 ， 硬 盘 剩 下 的 那 一 半数 据 也 
读 完 了 ， 人 硬盘 产生 中 断 ， 读 盘 中 断 服 务 程 序 再 次 响 
应 这 个 中 断 ， 进 入 read_intr O 函数 后 ， 仍 然 会 判 
盯 请 求 项 对 应 的 绥 冲 块 的 数据 是 否 恋 完了 ， 对 应 代 
人 码 如 下 : 


/代码 路 径 : kernel/blk_dev/hd.c: 


static void read_intr (void) 





OR OZ Vs OR BER A I Bt SE S, 
经 检验 确认 完成 后 ， 不 执行 ff 里 面 的 内 容 了 ， 跳 到 
end_request () 子 数 去 执行 ， 如 图 3-29 中 


read_intr () 这 个 函数 所 示 。 


. 
. 
, 
"es, 
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a 第 三 步 :将 全 | 
第 一 步 : 硬 糙 中 断 再 次 产生 ， read intr 缓冲 块 解锁 





硬 扒 中 断 服务 程序 开始 执行 | fend request 


&.. 将 数据 载 入 指定 缓冲 块 中 


硬盘 
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图 3-29 再 次 响应 硬盘 中 断 并 唤醒 进程 1 


进入 end_request © 后 ， 由 于 此 时 绥 冲 块 的 内 
容 已 经 全 部 读 进 来， 将 这 个 缓冲 块 的 更 新 标志 
b_uptodate 置 1， 说 明 它 可 用 了 ， 执 行 代码 如 下 : 


/代码 路 径 : kernel/blk_dev/blk.h: 


extern inline void end_request (int uptodate ) 

{ 

DEVICE _OFF (CURRENT->dev) ; 

if (CURRENT->bh) { 
CURRENT->bh->b_uptodate=uptodate; Wuptodate 是 参数 ， 为 1 


unlock _buffer (CURRENT->bh) : 


if (! uptodate) { 
printk (DEVICE NAME"I/O error\n\r") ; 
printk ("dev%04x,block%d\n\r", CURRENT->dev, 


CURRENT->bh->b_blocknr) ; 


wake _up (& CURRENT->waiting) ; 
wake _up ( &wait_for_request) ; 
CURRENT-~>dev=-1; 


CURRENT=CURRENT- > next; 


之 后 ， 调 用 unlock_buffer O 函数 为 缓冲 块 解 
锁 。 在 unlock_buffer〈) 函数 中 调用 wake_ up O P&I 
数 ， 将 等 待 这 个 缓冲 块 解锁 的 进程 《进程 1) 唤醒 
《设置 为 瓯 绪 态 ) ， 并 对 刚刚 使 用 过 的 请 求 项 进行 
处 理 ， 如 将 它 对 应 的 请 求 项 设置 为 空闲 .……… 执 行 代 
人 码 如 下 : 





/代码 路 径 : kernel/blk_dev/blk.h: 

extern inline void unlock_buffer (struct buffer_head * bh) 

{ 

if C! bh->b_lock) 

printk (DEVICE_NAME": free buffer being unlocked\n") ; 
bh- >b_lock=0; 

wake up (&bh->b_wait) ; 


} 


/代码 路 径 : kernel/sched.c: 
void wake_up (struct task_struct ** p) 
{ 
if (p&&*p) { 

(**p) .state=0; // 设 置 为 就 绪 态 
*p=NULL; 
} 


} 


人 硬盘 中 断 处 理 结束 ， 也 就 是 载 入 人 硬盘 引导 块 的 
工作 结束 后 ， 计 算 机 在 pause () 、 
sys_pause () 、schedule () 、switch_to (0) 循环 
中 继续 执行 ， 如 图 3-29 中 第 三 步 所 示 。 


7. 读 盘 操作 完成 后 ， 进 程 调 度 切换 到 进程 1 执行 


现在 ， 引 了 叶 块 的 两 个 届 区 已 经 载 入 内 核 的 缓冲 


块 ， 进 程 1 已 经 处 于 就 绪 态 。 注 意 : 虽然 进程 0 一 直 
参与 循环 运行 ， 但 它 是 非 就 绪 态 。 现 在 只 有 进程 0 
和 进程 1， 当 循环 执行 到 schedule 函 数 时 就 会 切换 进 
程 1 去 执行 。 该 过 程 如 图 3-30 所 示 。 
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第 二 步 : 执行 完毕 ， 返 回 sys_setup 
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A 3-30 切换 到 进程 1， 并 返回 sys_setup 


切换 到 进程 1 后 ， 进 程 1 从 下 面 的 代码 继续 执 





/代码 路 径 : kernel/sched.h: 

#define switch_to (n) {\ 

struct{long a,b; } tmp; \ 

_asm _ ("cmpl%%ecx, _current\n\t"\ 
"je 1f\n\t"\ 

"movw%%dx, Y%1\n\t"'\ 
"xchgl%%ecx, _current\n\t"\ 
"Ijmp%0\n\t"\ 


"cmpl%%ecx，_last_task_used_mathn\t"V/ 理 由 和 前 面 讲 述 的 
switch_to 一 样 


"jne 1f\n\t"\ 

"clts\n™ 

“le 

: "m" (*& tmp.a) , "m" (*& tmp.b) , \ 
"d" (C TSS (n) ) , "eœ" © (long) task[n]) ) ; \ 


} 





可 以 看 出 ， 所 有 进程 间 的 切换 都 是 这 个 模式 。 


进程 1 是 从 "jmp%0\n\t"\ 切 换 走 的 ， 所 以 现在 执 
行 它 的 下 一 行 。 现 在 ， 返 回 切换 的 发 起 者 
sleep_on () 国 数 中 ， 并 最 终 返 回 bread〈) 函数 
中 。 在 bread O 函数 中 判断 缓冲 块 的 b_uptodate 标 
志 已 被 设置 为 1， 直 接 返 回 ，bread〈) PRALIT SC 
毕 。 执 行 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 

struct buffer_head * bread (int dev,int block ) 
{ 

struct buffer_head * bh; 

if (! (bh=getblk Cdev,block) ) ) 

panic ("bread: getblk returned NULL\n") ; 


if (bh->b_uptodate ) 


return bh; 

ll_rw_block (READ,bh) ; 
wait _on_buffer (bh) ; 

if (bh->b_uptodate ) 
return bh; 

brelse (bh) ; 

return NULL; 


} 


回 到 sys_setup 函 数 继续 执行 ， 处 理 硬 盘 引 导 块 
载 入 缓冲 区 后 的 事务 。 绥 冲 块 里 面 装载 着 硬盘 的 引 
导 块 的 内 容 ， 先 来 判断 硬盘 信息 有 效 标 志 '55AA'。 
如 有 果 第 一 个 局 区 的 最 后 2 字 节 不 是 '55AA'， 就 说 明 
这 个 司 区 中 的 数据 是 无 效 的 我们 假设 引导 块 的 数 
据 没 有 问题 )。 执 行 代码 如 下 : 


/代码 路 径 : kernel/blk_dev/hd.c: 


int sys_setup (void * BIOS ) 


for (drive=0; drive<NR_HD; drive++) { 

if C! (bh=bread (0x300+drive*5, 0) ) ) { 
printk ("Unable to read partition table of drive%d\n\r",, 
drive) ; 

panic ("") ; 

} 


if (bh->b_data[510]! =0x55|| Cunsigned char) /我 们 假设 引导 块 的 


数据 没 问题 


hd[] 


bh->b_data[511]! =OxAA) { 
printk ("Bad partition table on drive%d\n\r", drive) ; 
panic ("") ; 


} 





p=0x1BE+ (void *) bh->b_data; /根据 引导 块 中 的 分 区 信息 设置 


for (i=1; i<5; i++, p++) { 
hd[i+5*drive].start_sect=p- > start_sect; 
hd[i+5*drive].nr_sects=p->nr_sects; 

} 

brelse (bh) ; /释放 缓冲 块 〈 引 用 计数 减 1) 
} 

if (NR_HD) 


printk ("Partition table%s ok.\n\r", (NR_HD>1) ?"s": "") ; 








之 后 ， 利 用 从 引导 块 中 采集 到 的 分 区 表 信 息 来 
设置 hd[]， 如 图 3-31 所 示 。 
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图 3-31 利用 引导 块 设置 硬盘 分 区 管理 结构 


访 引 导 块 的 缓冲 块 已 经 完成 使 命 ， 调 用 
brelse O 函数 释放 ， 以 便 以 后 继续 程序 使 用 。 


根据 硬盘 分 区 信息 设置 hd[]， 为 第 5 章 安 装 硬盘 
文件 系统 做 准备 的 工作 都 已 完成 。 下 和 面 ， 我 们 将 介 
绍 进程 1 用 虚拟 盘 谷 代 软 盘 使 之 成 为 根 设备 ， 为 加 
载 根 文件 系统 做 准备 。 


3.3.2 ”进程 1 格式 化 虚拟 盘 并 更 换 根 设备 为 
kee 


第 2 章 的 2.3 节 设置 了 虚拟 司空 间 并 初始 化 。 那 
时 的 虚拟 盘 只 是 一 块 “ 白 盘 ”， 沿 未 经 过 类 似 “ 格 式 
化 ”的 处 理 ， 还 不 能 当做 一 个 块 设 备 使 用 。 格 式 化 
所 用 的 信息 束 在 boot 操 作 系 统 的 软盘 上 。 第 1 章 讲 解 
过 ， 第 一 个 肩 区 是 bootsect， 后 面 4 个 肩 区 是 setup， 
接 下 来 的 240 个 而 区 是 包含 head 的 System 模块， 一 共 
有 245 个 夯 区 。“ 格 式 化 ?虚拟 盘 的 信息 从 256 届 区 开 


始 。 





下 面 ， 进 程 1 调用 rd load () 函数 ， 用 软盘 上 
256 以 后 面 区 中 的 信息 “格式 化 ?虚拟 盘 ， 使 之 成 为 
一 个 块 设备 。 


执行 代码 如 下 : 





/代码 路 径 : kernel/blk_dev/hd.c: 


int sys_setup (void * BIOS) 


if (NR_HD) 

printk ("Partition table%s ok.\n\r", (NR_HD>1) ?"s": "") ; 
rd_load © ; 

mount _root () ; 

return (0) ; 


} 





进入 rd_load ©) 函数 后 ， 调 用 breada © 函数 
从 软盘 预 读 一 些 数据 块 ， 也 就 是 “格式 化 ?虚拟 盘 需 
要 的 引导 块 、 超 级 块 。 


注意 : 现在 根 设 备 是 软盘 


breada © bread O 函数 类 似 ， 不 同 点 在 于 
可 以 把 一 些 连续 的 数据 块 都 谈 进来 ， 一 共 三 块 ， 分 
别 是 257、256 和 258， 其 中 引导 块 在 256《〈 尽 管 引 导 
块 并 未 实际 使 用 ) 、 超 级 块 在 257 中 。 从 软盘 上 读 
取 数 据 块 与 bread 读 硬盘 上 的 数据 块 原 理 基 本 一 致 ， 
具体 情况 参看 3.3.1 贡 的 讲解 。 读 取 完 成 后 的 状态 如 
图 3-32 所 示 。 可 以 看 出 3 个 连续 的 数据 块 被 读 入 了 
高 速 缓冲 区 的 缓冲 块 中 ， 其 中 ， 超 级 块 用 红色 框 标 
注 。 
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图 3-32 读 取 根 文件 系统 超级 块 


之 后 ， 分 析 超 级 英信 息 ， 包 括 判 断 文件 系统 是 
不 是 minix 文 件 系 统 、 接 下 来 要 载 入 的 根 文件 系统 
的 数据 块 数 会 不 会 比 整 个 虚拟 盘 区 都 大 .…… 这 些 条 
件 部 通过 ， 才 能 继续 加 载 根 文 件 系 统 。 分 析 完 毕 ， 
释放 缓冲 块 。 





整个 过 程 如 图 3-33 所 示 。 


执行 代码 如 下 : 





/代码 路 径 : kernel/blk_dev/ramdisk.c: 


void rd_load (void ) 


struct buffer_head * bh; 

struct super_block s; 

int block=256; /*Start at block 256*/ 

int I=1; 

int nblocks; 

char * cp; /*Move pointer*/ 

if (! rd_length) 

return; 

printk ("Ram disk: %d bytes,starting at Ox%x\n", rd_length, 
(int) rd_start) ; 


if (MAJOR (ROOT_DEV) ! =2) /如 果 根 设备 不 是 软盘 


return; 

bh=breada (ROOT_DEV,block+1, block,block+2, -1) ; 
if C! bh) { 

printk ("Disk error while looking for ramdisk! \n") ; 
return; 

} 


* ( (struct d_super_block *) &s) =* ( (struct d_super_block *) 
bh->b_data) ; 


brelse (bh) ; 


if (s.s_magic! =SUPER_MAGIC) /如 果 不 等 ， 说 明 不 是 minix 文 件 
系统 


/*No ram disk image present,assume normal floppy boot*/ 

return; 

nblocks=s.s_nzones< <s.s_log_zone_size; // 算 出 虚拟 盘 的 块 数 
if (nblocks> (rd_length>>BLOCK_SIZE_BITS) ) { 

printk ("Ram disk image too big! (%d blocks, %d avail) \n", 
nblocks,rd_length> >BLOCK_SIZE_BITS) ; 


return; 


} 


printk ("Loading%d bytes into ram disk...... 0000k", 


nblocks< <BLOCK_SIZE_BITS) ; 
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进程 0 进程 1 


图 3-33 备份 超级 块 并 检测 数据 


接 下 来 调用 breada () 函数 ， 把 与 文件 系统 相 


关 的 内 容 ， 从 软盘 上 拷贝 到 虚拟 盘 中 ， 然 后 及 时 释 
放 缓 冲 岂 ， 最 终 完 成 “格式 化 ”这 个 过 程 ， 如 图 3-34 
所 示 。 


复制 结束 后 ， 将 虚拟 盘 设 置 为 根 设备 。 


执行 代码 如 下 : 


/代码 路 径 : kernel/blk_dev/ramdisk.c: 


void rd_load (void ) 


printk ("Loading%d bytes into ram disk...... 0000k", 
nblocks<<BLOCK_SIZE_BITS) ; 
cp=rd_start; 


while (nblocks) {/ 将 软盘 上 准备 格式 化 用 的 根 文件 系统 复制 到 虚 
拟 盘 上 


if (nblocks>2) 


bh=breada (ROOT_DEV,block,block+1, block+2, -1) ; 
else 

bh=bread (ROOT_DEV,block) ; 

if C! bh) { 

printk ("I/O error on block%d, aborting load\n", 
block) ; 


return; 


(void) memcpy (cp,bh->b_data,BLOCK_SIZE) ; 
brelse (bh) ; 
printk ('"\010\010\010\010\010%4dk", i) ; 
cp+=BLOCK_SIZE; 
block++; 
nblocks--; 
i++; 
} 


printk ("\010\010\010\010\010done\n") ; 


ROOT _DEV=0x0101; /设置 虚拟 盘 为 根 设 备 


} 
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图 3-34 将 根 文 件 系 统 从 软盘 复制 到 虚拟 盘 


下 面 将 要 介绍 在 虚拟 盘 这 个 根 设备 上 加 载 根 文 
件 系统 ， 


3.3.3 ”进程 1 在 根 设 备 上 加 载 根 文 件 系统 


操作 系统 中 加 载 根 文件 系统 涉及 文件 、 文 件 系 
统 、 根 文件 系统 、 加 载 文件 系统 、 加 载 根 文件 系统 
这 几 个 概念 。 为 了 更 容易 理解 ， 这 里 我 们 只 讨论 块 
Wwe, EMEKA MERE. EMA CARREY 


详细 讨论 请 阅读 第 5、7 重 ) 。 





操作 系统 中 的 文件 系统 可 以 大 致 分 成 两 部 分 ; 
一 部 分 在 操作 系统 内 核 中 ， 夯 一 部 分 在 硬盘 、 软 
盘 、 虚 拟 盘 中 。 








文件 系统 是 用 来 管理 文件 的 。 文 件 系统 用 i 节 
点 来 管理 文件 ， 一 个 i 节 扣 管 理 一 个 文件 ，i 节 点 和 
文件 一 一 对 应 。 文 件 的 路 径 在 操作 系统 中 由 目录 文 
件 中 的 目录 项 管理 ， 一 个 目录 项 对 应 一 级 路 径 ， 目 





PPE SOF, BATTRE. AUE 
个 目录 文件 的 目录 项 上 ， 这 个 目录 文件 根据 实际 路 
径 的 不 同 ， 又 可 能 挂 在 羽 一 个 目录 文件 的 目录 项 
上 。 一 个 目录 文件 有 多 个 目录 项 ， 可 以 形成 不 同 的 
路 径 。 效 朱 如 图 3-35 所 示 。 


根 目录 文件 i 节 点 系统 中 i 节点 
EE = inode table[32] 






A 目录 文件 i 节点 










3-35 ”文件 路 人 径 与 节点 关系 示意 图 








所 有 的 文件 (包括 目录 文件 ) 的 i 市 上 最 终 挂 
接 成 一 个 树 形 结构 ， 树 根 i 市 后 束 叫 这 个 文件 系统 的 
根 i 闻 点 。 一 个 逻辑 设备 (一 个 物理 设备 可 以 分 成 多 


个 逻辑 设备 ， 比 如 物理 硬盘 可 以 分 成 多 个 逻辑 硬 
th) 只 有 一 个 文件 系统 ， 一 个 文件 系统 只 能 包含 一 
个 这 样 的 树 形 结构 ， 也 就 是 说 ， 一 个 逻辑 设备 只 能 
有 一 个 根 i 市 点 。 
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使 用 者 通过 mount 命 令 决 定 。 











逻辑 效果 如 图 3-36 所 示 。 


图 3-36 DEIR CE Re ECR A 


另外 ， 一 个 文件 系统 必须 挂 接 在 另 一 个 文件 系 
统 上 ， 按 照 这 个 设计 ， 一 定 存在 一 个 只 被 其 他 文件 
系统 挂 接 的 文件 系统 ， 这 个 文件 系统 束 叫 根 文件 系 
统 ， 根 文件 系统 所 在 的 设备 就 叫 根 设备 。 


别 的 文件 系统 可 以 挂 在 根 文件 系统 上 ， 根 文件 
系统 挂 在 哪 呢 ? 


挂 在 super_block[8] 上。 


Linux 0.11 操 作 系统 中 只 有 一 个 
super_block[8]， 每 个 数组 元 系 是 一 个 超级 哄 ， 一 个 
超级 块 管理 一 个 远 辑 设备 ， 也 束 是 说 操作 系统 最 多 
Ane ea He Mee, HIPAA PRE. DIM 
载 根 文 件 系 统 最 重要 的 标志 就 是 把 根 文件 系统 的 根 i 
节点 挂 在 super_block[8] 中 根 设 备 对 应 的 超级 块 上 。 











可 以 说 ， 加 载 根 文 件 系统 有 三 个 主要 步 又: 


1) 复制 根 设备 的 超级 块 到 super_block[8] 中 ， 
将 根 设 备 中 的 根 i 节 点 挂 在 super_block[8] 中 对 应 根 
设备 的 超级 块 上 。 





2) 将 驻 留 缓冲 区 中 16 个 缓冲 块 的 根 设备 逻辑 
块 位 图 、i 节 点 位 图 分 别 挂 接 在 super_block[8] 中 根 





设备 超级 块 的 s_zmap[8]、s_imap[8] 上 。 


3) 将 当前 进程 的 pwd、root 指 针 指 向 根 设备 的 


根 i 节 点 。 


加 载 根 文 件 系统 和 安装 硬盘 文件 系统 完成 后 的 
总 体 效 果 如 图 3-37 所 示 。 


[it 
EIIE 但 


hu 





super 

















根 文件 系统 PN ey ae eis 


图 3-37 总 体 效果 网 


进程 1 通过 调用 mount root () 函数 实现 在 根 设 
备 虚 拟 盘 上 加 载 根 文 件 系统 。 执 行 代 码 如 下 : 





/代码 路 径 : kernel/blk_dev/hd.c: 


int sys_setup (void * BIOS ) 


brelse (bh) ; 

} 

if (NR_HD) 

printk ("Partition table%s ok.\n\r", (NR_HD>1) ?"s": "") ; 
rd_load © ; 

mount _root () ; /加 载 根 文件 系统 

return (0) ; 


} 





1. 复 制 根 设备 的 超级 块 到 super_block[8] 中 





进入 mount_root ©) 函数 后 ， 初 始 化 内 存 中 的 
超级 块 super_block[8]， 将 每 一 项 所 对 应 的 设备 号 加 
锁 标 志和 等 待 它 解锁 的 进程 全 部 设置 为 0(。 系 统 只 
要 想 和 任何 一 个 设备 以 文件 的 形式 进行 数据 交互 ， 
就 要 将 这 个 设备 的 超级 块 存储 在 super_block[8] 中 ， 
这 样 可 以 通过 super_block[8] 获 取 这 个 设备 中 文件 系 
统 的 最 基本 信息 ， 根 设备 中 的 超级 块 也 不 例外 ， 如 
图 3-38 所 示 。 








0x00 0x9FFFF OxFFFFF 0x3FFFFF OxSFFFFF 


vos 
. 
. 
** 


ENG a 
po tt 
a 
hi rae ty 


TL i 
第 一 步 : 初始 化 file table[64] 。 第 二 步 : 初始 化 super_block[8] 


r-----------------------------------------------------------------------------------------、 


图 3-38 初始 化 包 e_table[64] 和 super_block[8] 


执行 代码 如 下 : 





/代码 路 径 : fs/super.c: 
void mount root (void) 


{ 


int i,free; 


struct super_block * p; 

struct m_inode * mi; 

if (32! =sizeof (struct d_inode) ) 
panic ("bad i-node size") ; 


for (i=0; i<NR_FILE; i++) /初始 化 file table[64]， 为 后 续 程 序 做 
准备 


file_tablelil].f_count=0; 


if (MAJOR (ROOT_DEV) ==2) {/2 代 表 软 盘 ， 此 时 根 设 备 是 虚 
拟 稻 ， 是 1。 反 之 ， 没 有 虚拟 盘 ， 则 加 载 软盘 的 根 文件 系统 





printk ("Insert root floppy and press ENTER") ; 

wait _for_keypress () ; 

} 

// 初 始 化 super_block[8] 

for (p=&super_block[0]; p< &super_block[NR_SUPER]; p++) { 
p->s_dev=0; 

p->s_lock=0; 

p->s_wait=NULL; 


} 


if (! (p=read super (ROOT_DEV) ) ) 
panic ("Unable to mount root") ; 


前 面 的 rd_load《〈) 函数 已 经 “格式 化 ”好 虚拟 
盘 ， 并 设置 为 根 设备 。 接 下 来 调用 read_super © 
函数 ， 从 虚拟 禹 中 读 取 根 设备 的 超级 块 ， 复 制 到 
super_block[8] 中 。 


执行 代码 如 下 : 


/代码 路 径 : fs/super.c: 


void mount root (void ) 


if (! (p=read super (ROOT DEV) ) ) 


panic ("Unable to mount root") ; 


ee 


在 read_super() 函数 中 ， 先 检测 这 个 超级 块 
是 不 是 已 经 被 读 进 super_block[8] 中 了 。 如 果 已 经 被 
读 进 来 了 ， 则 直接 使 用 ， 不 需要 再 加 载 一 次 了 。 这 
与 本 章 3.3.1 节 中 先 通过 哈 希 表 来 检测 缓冲 块 是 否 已 
经 存在 的 道理 是 一 样 的 。 





执行 代码 如 下 : 


/代码 路 径 : fs/super.c: 

static struct super_block * read_super (int dev) 
{ 

struct super_block * s; 


struct buffer_head * bh; 


int i,block; 

if C! dev) 

return NULL; 

check _disk_change (dev) ; // 检 查 是 否 换 过 盘 ， 并 做 相应 处 理 
if (s=get_super (dev) ) 

return s; 


因为 此 前 没有 加 载 过 根 文件 系统 ， 所 以 要 在 
super_block[8] 中 申请 一 项 。 从 图 3-39 中 可 以 看 出 ， 
此 时 找到 的 是 super_block[8] 结 构 中 的 第 一 项 。 然 后 
进行 初始 化 并 加 锁 ， 准 备 把 根 设备 的 超级 块 读 出 。 








oe Ox9FFFF OxFFFFF Ox3FFFFF 0x5FFFFF 


"eee, 
oe, 
"toos 
Pens 


boss 
tee, 


a! 
第 一 步 : 找到 一 个 空 
闲 的 超级 块 并 加 镇 


r----~--------------------------------------------------------------------- 


进程 0 进程 


OxFFFFFF 


(es) 


ae 


图 3-39 加 载 根 文件 系统 超级 块 


对 应 的 代码 如 下 : 


/代码 路 径 : fs/super.c: 


static struct super_block * read_super (int dev) 





for (s=0+super_block; s++) { 

if (s>=NR_SUPER+super_block) //NR_SUPER 是 8 
return NULL; 

if (! s->s_dev) 


break; 


s- >s_dev=dev; 

s- >s_isup=NULL; 
s->s_imount=NULL; 
s->s_time=0; 

s- >s_rd_only=0; 
s->s_dirt=0; 


lock _super (s) ; /锁定 超级 块 





调用 bread O 函数 ， 把 超级 块 从 虚拟 盘 上 旋 进 
绥 冲 区， 并 从 绥 冲 区 复制 到 super_block[8] 的 第 一 
I. bread © 函数 在 3.3.1 节 中 已 经 说 明 。 这 里 有 一 
点 区 别 ， 在 3.3.1 闻 中 提 到 ， 如 有 果 给 硬盘 友 送 操作 命 
令 ， 则 调用 do_hd_request © 函数 ， 而 此 时 操作 的 
是 虚拟 盘 ， 所 以 要 调用 do_rd_request〈() 函数 。 值 
得 注意 的 是 ， 虚 拟 盘 虽然 被 视 为 外 设 ， 但 它 毕 竞 是 
内 存 里 面 一 段 空 间 ， 并 不 是 实际 的 外 设 ， 所 以 ， 调 
用 do_rd_request〈) 函数 从 虚拟 盘 上 恋 取 超级 块 ， 
不 会 发 生 类 似 硬盘 中 断 的 情况 。 








超级 块 复制 进 缓冲 块 以 后 ， 将 绥 冲 块 中 的 超级 
块 数据 复制 到 super_block[8] 的 第 一 项 。 从 现在 起 ， 
虚拟 盘 这 个 根 设备 就 由 super_block[8] 的 第 一 项 来 管 
理 ， 之 后 调用 brelse〈) 函数 释放 这 个 缓冲 块 ， 如 








图 3-40 所 示 。 
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Al 3-40 从 虚拟 盘 读 取 超 级 块 并 复制 到 内 核 超级 
块 表 


执行 代码 如 下 : 





/代码 路 径 : fs/super.c: 


static struct super_block * read_super (int dev) 


if (C! (bh=bread (dev, 1) ) ) {/ 读 根 设备 的 超级 块 到 绥 冲 区 
s- >s_dev=0; 

free_super (s) ; /释放 超级 块 

return NULL; 

} 

* ( (struct d_super_block *) s) =// 将 缓冲 区 中 的 超级 块 复制 到 


* ( (struct d_super_block *) bh->b_data) ; //super_block[8] 第 一 
项 


brelse (bh) ; /释放 缓冲 块 


if (s->s_magic! =SUPER_MAGIC) {/ 判 断 超级 块 的 魔 数 
(SUPER_MAGIC) 是 否 正确 


s->s_dev=0; 
free _super (s) ; /释放 超级 块 


return NULL; 





初始 化 super_block[8] 中 的 虚拟 盘 超 级 块 中 的 i 
节点 位 图 s_imap、 人 逻辑 块 位 图 s_zmap， 并 把 虚拟 入 
上 i 节点 位 图 、 罗 辑 块 位 图 所 占用 的 所 有 人 逻辑 块 读 到 
缓冲 区 ， 将 这 些 缓冲 块 分 别 挂 接 到 s_imap[8] 和 和 
s_Zzmap[8] 上 。 由 于 对 它们 的 操作 会 比较 频繁 ， 所 以 
这 些 占 用 的 缓冲 块 并 不 被 释放 ， 它 们 将 第 驻 在 缓冲 
区 内 。 








如 图 3-41 所 示 ， 超 级 块 通过 指针 与 s_imap 和 
s_zmap 实 现 挂 接 。 
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执行 代码 如 下 : 





/代码 路 径 : fs/super.c: 


static struct super_block * read_super (int dev) 


for (i=0; i<I_LMAP_SLOTS; i++) /初始 化 s_ imap[8]、s_zmap[8] 
s->s_imap[iJ=NULL; 

for (i=0; i<Z_MAP_SLOTS; i++) 

s->s_zmap[i]=NULL; 


block=2; //HEJUALI 3-H, ACP Ae 
辑 块 位 图 


for (i=0; i<s->s_imap_blocks; i++) // 把 虚拟 盘 上 i 节点 位 图 所 占 
用 的 所 有 逻辑 块 


if (s->s_imap[i]=bread (dev,block) ) / 读 到 缓冲 区 ， 分 别 挂 接 到 
s_imap[8] 上 


block++; 
else 
break; 


for (i=0; i<s->s_zmap_blocks; i++) /把 虚拟 盘 上 逻辑 块 位 图 所 
占用 的 所 有 逻辑 块 


if (s->s_zmap[i]=bread (dev,block) ) V/ 读 到 缓冲 区 ， 分 别 挂 接 到 
s_zmap[8] 上 


block++; 
else 
break; 


if (block! =2+s->s_imap_blocks+s->s_zmap_blocks) {/ 如 果 i 节 点 
ALA EER 


for (i=0; i<I_MAP_SLOTS; i++) /图 所 占用 的 块 数 不 对 ， 说 明 
操作 系统 有 问题 ， 则 应 释放 前 


brelse (s->s_imap[i]) ; // 面 获得 的 缓冲 块 及 超级 块 
for (i=0; i<Z MAP SLOTS; i++) 

brelse (s->s_zmap[i]) ; 

s- >s_dev=0; 

free _super (s) ; 

return NULL; 


}s->s_imap[0]->b_data[O]|=1; /牺牲 一 个 节点， 以 防止 查找 算法 
返回 0 





s->s_zmap[0]->b_data[0]|=1; // 与 0 号 i 节点 混淆 
free _super (s) ; 


return sS; 





2. 将 根 设备 中 的 根 i 点 挂 在 super_block[8] 中 根 
设备 超级 块 上 


回 到 mount_root () 函数 中 ， 调 用 iget () K 
数 ， 从 虚拟 盘 上 读 取 根 i 节点 。 根 i 节点 的 意义 在 
于 ， 通 过 它 可 以 到 文件 系统 中 任何 指定 的 节点， 也 
就 是 能 找到 任何 指定 的 文件 。 


执行 代码 如 下 : 


/代码 路 径 : fs/super.c: 


void mount root (void) 


if (! (p=read super (ROOT _ DEV) ) ) 


panic ("Unable to mount root") ; 
if (! (mi=iget CROOT_DEV,ROOT_INO) ) ) 
panic ("Unable to read root i-node") ; 


进入 jiget O 函数 后 ， 操 作 系 统 从 i 节点 表 
inode_table[32] FA ia —“* 28 A AN RAM E. 
(inode_table[32] 是 操作 系统 用 来 控制 同时 打开 不 
同文 件 的 最 大 数 ) 。 此 时 应 该 是 首 个 i 节点 。 对 这 个 
i 衣 点 进行 初始 化 设置 ， 其 中 包括 该 i 节点 对 应 的 设 
备 号 、 该 节点 的 节点 号 ...... 图 3-42 中 给 出 了 根 目 录 
i 节 点 在 内 核 i 节 点 表 中 的 位 置 。 
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通过 调用 iget， 在 内 核 i 节点 表 中 
找到 根 目 录 i 节 点 的 加 载 位 置 


进程 0 进程 1 


图 3-42 读 取 根 目 录 i 节 点 


对 应 代码 如 下 : 





/代码 路 径 : fs/inode.c: 


struct m_inode * iget (int dev,int nr) 


struct m_inode * inode, *empty; 


if C! dev) 


panic ("iget with dev==0") ; 


empty=get_empty_inode () ; /从 inode_table[32] 中 申请 一 个 空闲 的 ; 
节点 


inode=inode_table; 

while (inode<NR_INODE+inode_table) {/ 查 找 与 参数 相同 的 inode 
if (inode->i_dev! =dev||inode->i_num! =nr) { 

inodet++; 

continue; 

} 

wait _on_inode (inode) ; /等 待 解锁 

if (inode->i_dev! =dev||inode->i_num! =nr) {/ 如 等 待 期 间 发 生 


inode=inode_table; /变化 ， 继 续 查 找 


continue; 


inode- >i_count++; 
if (inode->i_mount) { 


int i; 


for (i=0; i<NR_SUPER; i++) /如 是 mount 点 ， 则 查找 对 应 的 超 
级 块 


if (super_block[i].s_imount==inode ) 

break; 

if (i>=NR_SUPER) { 

printk ("Mounted inode hasn't got sb\n") ; 

if (empty) 

iput (empty) ; 

return inode; 

} 

iput (inode) ; 

dev=super_block[i].s_dev; /从 超级 块 中 获取 设备 号 
nr=ROOT_INO; /ROOT _INO 为 1， 根 i 节 点 号 
inode=inode_table; 

continue; 

} 


if (empty) 


iput (empty) ; 

return inode; 

} 

if C! empty) 

return (NULL) ; 

inode=empty; 

inode->i_dev=dev; /初始 化 

inode->i_num=nr; 

read _inode (inode) ; // 从 虚拟 盘 上 读 出 根 i 节 点 
return inode; 


} 


fEread_inode () 函数 中 ， 先 给 inode_table[32] 
中 的 这 个 i 节点 加 锁 。 在 解锁 之 前 ， 这 个 i 节点 就 不 
会 被 别 的 程序 占用 。 之 后 ， 通 过 该 节点 所 在 的 超级 
块 ， 间 接地 计算 出 节点 所 在 的 逻辑 块 号 ， 并 将 i 节 





点 所 在 的 逻辑 块 整体 读 出 ， 从 中 提取 这 个 i 节点 的 信 
思 ， 载 入 刚才 加 锁 的 ji 点 位 置 上 ， 如 图 3-43 所 示 ， 
注意 inode_table[32] 中 的 变化 。 最 后 ， 释 放 缓 冲 块 
并 将 锁定 的 i 节点 解锁 。 
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图 3-43 ” 读 取 i 节点 


执行 的 代码 如 下 : 


/代码 路 径 : fs/inode.c: 


static void read_inode (struct m_inode * inode ) 


lock inode (inode) ; /锁定 inode 


if (! (sb=get_super (inode->i_dev) ) ) /获得 inode 所 在 设备 的 
超级 块 


block=2+sb->s_imap_blocks+sb->s_zmap_blocks+ 
(inode->i_num-1) /INODES_PER_BLOCK; 


if C! (bh=bread (inode->i_dev,block) ) ) V 读 inode 所 在 逻辑 块 
进 绥 冲 块 


panic ("unable to read i-node block") ; 
* (struct d_inode *) inode=// 整 体 复制 
( (struct d_inode *) bh->b_data) 
[ (inode->i_num-1) %INODES_PER_BLOCK]; 
brelse (bh) ; /释放 缓冲 块 


unlock inode (inode) ; /解锁 


回 到 iget O 函数 ， 将 inode 指 针 返 回 给 
mount_root () 函数 ， 并 赋 给 mi 指针 。 


下 面 是 加 载 根 文 件 系统 的 标志 性 动作 : 


将 inode_table[32] 中 代表 虚拟 盘 根 i 节点 的 项 挂 
接 到 super_block[8] 中 代表 根 设备 虚拟 盘 的 项 中 的 
s_isup、s_imount 指 针 上 。 这 样 ， 操 作 系统 在 根 设备 
上 可 以 通过 这 里 建立 的 关系 ， 一 步 步 地 把 文件 找 
到 。 





3. 将 根 文 件 系 统 与 进程 1 关联 





对 进程 1 的 tast_struct 中 与 文件 系统 i 节点 有 关 的 
字段 进行 设置 ， 将 根 i 节 点 与 当前 进程 (现在 就 是 进 





Fel) 关联 起 来 ， 如 图 3-44 所 示 。 
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图 3-44 加 载 根 文件 系统 完成 并 返 


执行 代码 如 下 : 
/代码 路 径 : fs/super.c: 


void mount root (void) 


{ 


if (! (mi=iget (ROOT_DEV,ROOT_INO) ) ) // 根 设备 的 根 i 节点 
panic ("Unable to read root i-node") ; 

mi->i_count+=3; /*NOTE! it is logically used 4 times,not 1*/ 
p->s_isup=p->s_imount=mi; /标志 性 的 一 


current->pwd=mi; /当前 进程 〈 进 程 1) 掌控 根 文件 系统 的 根 i 


current->root=mi; /父子 进程 创建 机 制 将 这 个 特性 遗传 给 子 进 程 


得 到 了 根 文件 系统 的 超级 块 ， 丈 可 以 根据 超级 
块 中 “ 滁 辑 块 位 图 ”里 记载 的 信息 ， 计 算出 虚拟 副 上 
数据 块 的 占用 与 空 几 情况 ， 并 将 此 信息 记录 在 3.3.3 
市 中 拓 到 的 驻 留 在 缓冲 区 中 “ 凌 载 迎 辑 块 位 图 信息 
的 缓冲 块 中 ”。 执 行 代码 如 下 : 


/代码 路 径 : fs/super.c: 


void mount root (void) 


i=p->s_nzones; 

while (--i>=0) /计算 虚拟 盘 中 空闲 逻辑 块 的 总 数 

if (! set_bit (i&8191, p->s_zmap[i>>13]->b_data) ) 
free++; 

printk ("%d/%d free blocks\n\r", free,p->s_nzones) ; 
free=0; 

i=p->s_ninodes+1; 

while (--i>=0) /计算 虚拟 盘 中 空闲 的 i 节 点 的 总 数 

if C! set_bit (i&8191, p->s_imap[i>>13]->b_data) ) 
free++; 

printk ("%d/%d free inodes\n\r", free,p->s_ninodes) ; 


} 


到 此 为 止 ，sys_setup () 函数 就 全 都 执行 完毕 
了 。 因 为 这 个 函数 也 是 由 于 产生 软 中 断 才 被 调用 
的 ， 所 以 返回 system_call 中 执行 ， 之 后 会 执行 
ret_from_sys_call。 这 时 候 的 当前 进程 是 进程 1， 所 
以 下 面 将 调用 do_signal O 函数 (只 要 当前 进程 不 
是 进程 0， 就 要 执行 到 这 里 ) ， 对 当前 进程 的 信和 号 
位 图 进行 检测 ， 执 行 代码 如 下 : 








/代码 路 径 : kernel/system_call.s: 

ret _from_sys_call: 

movl _current, %eax#task[0]cannot have signals 
cmpl _task, %eax 

je 3f 


cmpw $0x0f,CS (%esp) #was old code segment supervisor? 


jne 3f 

cmpw $0x17, OLDSS (%esp) #was stack segment=0x17? 
jne 3f 

movl signal (%eax) , %ebx# 下面 是 取信 号 位 图 ..…… 
movl blocked (%eax) , %ecx 

notl %ecx 

andl %ebx, %ecx 

bsfl %ecx, Y%ecx 

je 3f 

btrl %ecx, Y%ebx 

movl %ebx,signal (%eax ) 

incl %ecx 

pushl %ecx 


call _do_signal# 调 用 do_signal ©) 





现在 ， 当 前 进程 〈 进 程 1) 并 没有 接收 到 信 
号， 调用 do_signal O RAFA SEI YX. 


至 此 ，sys_setup〈) 的 系统 调用 结束 ， 进 程 1 
将 返回 3.3 节 中 讲 到 的 代码 的 调用 点 ， 准 备 下 面 代码 
的 执行 。 





/代码 路 径 : init/main.c: 


void init (void) 


int pid,i; 

setup ( (void *) &drive_info) ; 
(void) open ("/dev/ttyO", O_RDWR, 0) ; 
(void) dup (0) ; 
(void) dup (0) ; 


printf ("%d buffers=%d bytes buffer space\n\r", NR_BUFFERS, 


NR _BUFFERS * BLOCK_SIZE) ; 


ee 


至 此 ， 进 程 0 创建 进程 1， 进 程 1 为 安装 人 硬盘 文 
件 系 统 做 准备 、“ 格 式 化 ”虚拟 盘 并 用 虚拟 盘 取 代 软 
盘 为 根 设 备 、 在 虚拟 盘 上 加 载 根 文 件 系统 的 内 容 讲 


解 完毕 。 


3.4 本 章 小 结 


本 章 详细 讲解 了 进程 0 创建 进程 1 的 全 过 程 。 后 
续 所 有 进程 的 创建 过 程 与 这 个 过 程 基本 相同 。 透 彻 
理解 这 个 创建 过 程 ， 为 理解 后 续 的 进程 创建 打下 坚 
实 的 基础 。 





本 前 还 讲解 了 操作 系统 局 动 以 来 内 核 做 的 第 一 
次 进程 调度 ， 内 容 涉 及 了 进程 调度 的 很 多 代码 ， 为 
更 深入 地 理解 进程 调度 起 到 了 很 好 的 铺垫 作用 。 





最 后 ， 本 章 详 细 讲 解 了 进程 1 第 一 次 执行 后 所 
做 的 设置 硬盘 信息 、 格 式 化 虚拟 盘 、 加 载 根 文件 系 
Ns 


第 4 革 ”进程 2 的 创建 及 执行 


现在 ， 计 算 机 中 己 经 创建 了 两 个 进程 进程 
0、 进 程 1。 本 章 我 们 将 要 主 细 讲解 进程 1 创建 进程 2 
的 过 程 ， 以 及 进程 2 的 执行 ， 最 终 shell 进 程 开 始 执 


行 ， 整 个 boot 工 作 完 成 ， 实 现 系统 令 速 。 


4.1 打开 终 站 设备 文件 及 复制 文件 名 
iia 





shell 进 程 是 用 户 界 面 进 程 。 计 算 机 用 户 使 用 显 
示 器 、 键 盘 (终端 设备 ) 通过 shell 进 程 与 操作 系统 
之 间 进 行人 机 交互 。 


4.1.1 打开 标准 输入 设备 文件 


tty0 文 件 加 载 后 ， 就 形成 了 如 图 4-1 所 示 的 效果 
图 。 


| 进程 管理 结构 
| task_struct 


~ Te file_table[64] inode_table[32] 
-ie 和 四 





超级 块 加 载 该 i 节点 





图 4-1 打开 tty0 文 件 后 ， 文 件 信息 在 内 存 和 进程 
中 的 分 布 图 


1.file_table[0] 挂 接 在 进程 1 的 filp[0] 
在 加 载 完 根 文件 系统 之 后 ， 进 程 1 在 其 支持 


下 ， 通 过 调用 open〈) 函数 来 打开 标准 输入 设备 文 
件 ， 执 行 代码 如 下 : 


/代码 路 径 : init/main.c: 
void init (void) 


{ 


int pid,i; 
setup ( (void *) &drive_info) ; 


(void) open ("/dev/ttyO", O_RDWR, 0) ; /创建 标准 输入 设 
备 ， 其 中 /dewtty0 是 该 文件 的 路 径 名 


(void) dup (0) ; /创建 标准 输出 设备 
(void) dup (0) ; /创建 标准 错误 输出 设备 


printf ("%d buffers=%d bytes buffer space\n\r", NR BUFFERS, // 在 
标准 输出 设备 文 持 下 ， 显 示 信 息 





NR _BUFFERS * BLOCK_SIZE) ; 


printf ("Free mem: %d bytes\n\r", memory_end- 
main_memory_start) ; 


ee 





open ©) 函数 执行 后 产生 软 中 断 ， 并 最 终 映射 
到 内 核 中 sys_open〈) 函数 去 执行 。 此 映射 过 程 与 
第 3 章 3.1.1 节 中 fork O 函数 映射 到 sys_fork © Pf 
数 的 技术 路 线 大 体 一 致 。 执 行 代 码 如 下 : 





/代码 路 径 : fs/open.c: 

int open (const char * filename,int flag, ...... ) 
{ 

register int res; 

va _list arg; 

va _start (arg,flag) ; 


_asm_ 〈"int$0x80"/ 以 下 代码 与 fork 到 sys_fork 的 映射 类 似 ， 详 情 
参看 第 3 章 3.1.1 市 


"=a" (res) 
: "0" (_ NR open) , "b" (filename) , "c" (flag) , 
"d" (va arg (arg,int) ) ) ; 
if (res>=0) 
return res; 
ermo=-res; 


return-1; 


it Asys_open O 函数 ， 内 核 先 将 进程 1 的 
filp[20] 与 他 e_table[64] 挂 接 ， 建 立 进程 与 
file_table[64] 的 关系 ， 执 行 代码 如 下 : 





/代码 路 径 : fs/open.c: 

int sys_open (const char * filename,int flag,int mode ) 

{ 

struct m_inode * inode; 

struct file * f; 

int i,fd; 

mode & =0777 & ~current- > umask; 

for (fd=0; fd 二 NR_OPEN; fd++) /遍历 进程 1 的 fip 


if (! current->flp[fd)) /直到 获取 一 个 空 亲 项 ，fq 就 是 这 个 空闲 项 
的 项 号 


break; 


if (fd>=NR_OPEN) /如 果 此 条 件 成 过 ， 说 明 f 旭 p[20] 中 没有 空闲 项 
了 ， 直 接 返 回 


return-EINVAL; 

current->close_on_exec&=~ (1<<fd) ; 
f=0+file_table; /获取 file_table[64] 首 地 址 

for (i=0; i<NR_FILE; i++, f++) /过 历 fle_table[64] 


if C! f->f_count) break; /直到 获取 一 个 空闲 项 ，{f 就 是 这 个 空闲 
项 的 指针 


if G>=NR_FILE) /如 果 此 条 件 成 立 ， 说 明 file_table[64] 中 没有 衬 
朵 项 了 ， 


/直接 返回 
return-EINVAL; 


(current->filp[fd]J=f) ->f_count++; /将 进程 1 的 fip[20] 与 
file table[64] 挂 接 ， 并 增加 引用 计数 


if ( Gi=open_namei (flename,fag,mode, &inode) ) <0) {// 获 取 
文件 i 节点 


current- > filp[fdJ=NULL; 
f->f_count=0; 


return i; 


挂 接 情景 如 图 4-2 所 示 。 
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图 4-2 打开 终端 设备 文件 的 准备 工作 
2. 人 确定 绝 对 路 径 起 点 


内 核 将 调用 open_namei() 函数 ， 最 终 获 取 标 


准 输入 设备 文件 的 节点， 具体 执行 代码 如 下 : 





/代码 路 径 : fs/open.c: 

int sys_open (const char * filename,int flag,int mode ) 
{ 

struct m_inode * inode; 

struct file * f; 

int i,fd; 

mode & =0777 & ~current- > umask; 

for (fd=0; fd<NR_OPEN; fd++) 

if (! current-> flp[fd]) 

break; 

if (fd>=NR_OPEN ) 

retunn-EINVAL; 
current->close_on_exec&=~ (1<<fd) ; 


f=0+file_table; 


for (i=0; i<NR_FILE; i++, f++) 
if (! f->f_count) break; 
if (i >=NR_FILE ) 
retun-EINVAL; 
Ccurrent->filp[fd]=f) ->f_count++; 


if ( G=open_namei (filename,flag,mode, &inode) ) <0) {/ 此 时 
的 flename 就 是 路 径 /dewtty0 的 指针 


current- > filp[fdJ=NULL; 
f->f_count=0; 


return i; 








一 目标 是 通过 不 断 分 析 路 径 名 来 实现 的 。 
析 工 作 的 第 一 阶段 是 调用 dir_namei O 函数 ， 获 取 
POI eA, BN /dew/ttyOrg 74 F dev A ae CPE I 


点 ; 第 二 阶段 是 调用 find_entry O 函数 ， 通 过 此 fi 
点 ， 找 到 dev 目 录 文 件 中 tty0 这 一 目录 项 ， 再 通过 
该 目录 项 找到 tty0 文 件 的 i 节 点 。 





一 阶段 ， 调 用 dir_ namei O 函数 ， 有 具体 执行 
代码 如 下 : 





/代码 路 径 : fs/namei.c: 


int open_namei (const char * pathname,int flag,int mode, //pathname 
就 是 路 径 /dewtty0 的 指针 


struct m_inode ** res inode) 


{ 





const char * basename; /Wbasename 记 录 目 录 项 名 字 前 面 % 的 地 址 
int inr,dev,namelen; //namelen 记 录 名 字 的 长 度 
struct m_inode * dir, *inode; 


struct buffer_head * bh; 





struct dir_entry * de; //de 用 来 指 同 目 录 项 内 容 


if ( (flag&O_ TRUNC) &&! (flas&O_ACCMODE) ) 
flas|-O_WRONLY; 

mode & =0777 & ~current- > umask; 

mode|=l_ REGULAR; 


if (! (dir=dir namei (pathname, &namelen, &basename) ) ) // 


获取 枝 梢 i 市 反 
return-ENOENT; 
if ©! namelen) {/*special case: '/usr/‘etc*/ 
if (! (flag& CO_ACCMODE|O_CREAT|O_TRUNC) ) ) { 
*res_inode=dir; 


return 0; 


iput (dir) ; 
retum-EISDIR; 
} 


bh=find_entry ( &dir,basename,namelen, &de) ; // 通 过 枝 梢 i 节 
点 ， 找 到 目标 文件 的 目录 项 


dir namei O 函数 中 将 首先 调用 get_dir ©) K 
数 来 获取 枝 梢 i 节 点 ， 之 后 再 通过 解析 路 径 名 ， 获 取 
tty0 目 录 项 的 地 址 和 文件 名 长 度 信息 。 调 用 
get_dir ©) 函数 的 具体 执行 代码 如 下 : 





/代码 路 径 : fs/namei.c: 


static struct m_inode * dir_namei (const char * pathname, //pathname 
就 是 路 径 /dewtty0 的 指针 


int * namelen,const char ** name) 

{ 

char c; 

const char * basename; 

struct m_inode * dir; 

if C! (dir=get_dir (pathname) ) ) /获取 证 点 的 执行 函数 


return NULL; 


basename=pathname; 


while (c=get_fs_byte (pathname++) ) /逐个 过 历 /dewtty0 字 符 串 ， 
每 次 循环 都 将 一 个 字符 复制 给 ce， 直 到 字符 串 结 





fs 

basename=pathname; 

*namelen=pathname-basename-1; /确定 tty0 名 字 的 长 度 
*name=basename; /得 到 tty0 前 面 / 字 符 的 地 址 

return dir; 


} 





值得 注意 的 是 ，get_fs_byte〈) 函数 是 解析 路 
径 的 核心 函数 ， 可 以 从 路 径 中 逐一 提取 字符 串 。 该 
函数 在 后 面具 体 的 路 径 解 析 工 作 中 还 会 用 到 ， 它 的 
内 部 处 理 过 程 如 下 : 














/代码 路 径 : include/asm/Segment.h: 


extern inline unsigned char get_fs_byte (const char * addr) 


{ 
unsigned register char_v; 


asm ("movb%%fs: %1，%0"WM/movb 指 令 可 以 将 8 位 ， 即 1 字 节 
数据 移入 指定 寄存 器 (fs) 


: "=" (Cv) /是 输出 的 字符 
: "m" (*addr) ) ; //*addr 是 输入 的 内 存 地 址 
return _v; 


} 


get_dir O 函数 首先 确定 路 径 的 绝对 起 点 ， 即 
分 析 "dewtty0" 这 个 路 径 名 的 第 一 个 字符 是 不 是 /。 
如 果 是 /， 就 确定 这 是 绝对 路 径 名 ， 因 此 将 从 根 i 节 
扩 开 始 僵 找 文 件 。 这 个 根 i 节 扣 已 在 第 3 章 3.3.3 市 中 
加 载 根 文件 系统 时 载 入 ， 它 被 确定 为 路 径 绝对 起 
点 ， 同 时 ， 它 被 引用 ， 其 引用 计数 也 随 之 增加 。 这 
部 分 执行 代码 如 下 : 











/代码 路 径 : fs/namei.c: 


static struct m_inode * get_dir (const char * pathname) /pathname 鸡 
是 路 径 /dewtty0 的 指针 


char c; 

const char * thisname; 
struct m_inode * inode; 
struct buffer_head * bh; 
int namelen,inr,idev; 
struct dir_entry * de; 


if (C! current->root||! current->root->i_count) // 当 前 进程 的 根 i 节 


点 不 存在 或 引用 计数 为 0%， 死 机 
panic ("No root inode") ; 


if (! current->pwd||! current->pwd->i_count ) 








// 当 前 进程 的 当前 工作 目录 根 i 市 点 不 存在 或 引用 计数 为 0， 死 机 





panic ("No cwd inode") ; 


if © (c=get fs_byte (pathname) ) ==") {// 此 处 识别 
出 "Vdev/tty0" 这 个 路 径 的 第 一 个 字符 是 


inode=current- > root; 

pathname++; 

}else if I 

inode=current- > pwd; 

else 

return NULL; /*empty name is bad*/ 


inode->i_countt++; // 该 i 节点 的 引用 计数 也 随 之 加 1 








确定 路 人 径 起 后 的 情景 如 图 4-3 所 示 。 
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图 4-3 文件 名 解析 准备 工作 
3. 获 得 dev 目 录 文 件 i 节 点 


从 根 i 节点 开始 ， 人 遍历 并 解析 "/dev/tty0" 这 个 路 
径 名 ， 首 先 会 解析 到 dev 这 个 目录 项 ， 之 后 将 在 虚 
拟 盘 上 找到 这 个 目录 项 所 在 的 逻辑 其， 并 读 进 指定 
的 缓冲 块 ， 具 体 解析 过 程 如 下 : 


/代码 路 径 : fs/namei.c: 


static struct m_inode * get_dir (const char * pathname) 


char c; 





const char * thisname; /thisname 记 录 目 录 项 名 字 前 面 % 的 地 址 
struct m_inode * inode; 
struct buffer_head * bh; 


int namelen,inr,idev; /namelen 记 录 名 字 的 长 度 





struct dir_entry * de; /de 用 来 指 癌 目录 项 内 容 
if ( Cc=get_fs_byte (pathname) ) ==/) { 
inode=current- > root; 


pathname++; //pathname 原 本 是 /dev/tty0 这 个 字符 串 中 第 一 个 字符 的 
指针 ， 即 指 辣 W，++ 后 指 癌 'd' 


}else if I 
inode=current- > pwd; 


else 


return NULL; /*empty name is bad*/ 

inode- > i_count++; 

while (1) {V 循 环 以 下 过 程 ， 直 到 找到 校 梢 i 节 点 为 止 
thisname=pathname; /Wthisname 也 会 指向 'd 


if ©! S_ISDIR Cinode->i_mode ) ||! 
permission (inode,MAY_EXEC) ) { 


iput (inode) ; 
return NULL; 


} 





/每 当 检 索 到 字符 串 中 的 /字符 ， 或 者 c 为 \0'， 循 环 都 会 跳出 


for (namelen=0; (c=get fs byte (pathname++) ) & & (c! 
=/) ; namelen++ ) 


/*nothing*/; /注意 这 个 分 号 
if C! œ) 


return inode; 








// 通 过 目录 文件 的 i 节点 和 目录 项 信息 ， 获 取 目 录 项 
if C! (bh=find entry ( &inode,thisname,namelen, &de) ) ) { 


iput (inode) ; 


return NULL; 

} 

inr=de- 之 inode; 

idev=inode- 之 1 dev; 

brelse (bh) ; 

iput (inode) ; 

if (! Cinode=iget Cidev,inr) ) ) 
return NULL; 

j 


} 


get_fs_byte () 函数 再 次 被 用 到 ， 从 /dewtty0 路 
径 名 dev 的 'd' 字 符 开始 遍历 ， 遇 到 "后 跳出 循环 ， 
namelen 数 值 累 加 为 3。 这 些 信息 将 和 根 i 节点 指针 一 
起 ， 作 为 find_entry() 函数 的 参数 使 用 。 
find_entry O pent A Se ATER EREA Be 





BR 


此 处 值得 注意 的 是 ， 上 面 代码 中 find_entry ©) 
国 数 最 后 一 个 参数 de 所 指 回 的 数据 结构 是 目录 项 续 
构 ， 代 码 如 下 : 





// 代 码 位 置 : /include/linux/fs.h 
#define NAME LEN 14 


struct dir_entry{// 目 录 项 结构 








unsigned short inode; // 目 录 项 所 对 应 目录 文件 在 设备 上 的 i 节点 号 
char name[NAME_LEN]; // 目 录 项 名 字 ，14 字 节 


}; 


得 到 了 i 节点 号， 就 可 以 得 到 “dev” 目 录 项 所 对 
应 目录 文件 的 节点， 内核 就 可 以 进而 通过 i 闻 点 找 
到 dev 目 录 文 件 。 获 取 i 节 点 的 代码 如 下 : 





/代码 路 径 : fs/namei.c: 


static struct m_inode * get_dir (const char * pathname ) 


if ( (c=get fs byte (pathname) ) =='/) { 
inode=current- > root; 

pathname++; 

}else if I 

inode=current- > pwd; 

else 

return NULL; /*empty name is bad*/ 

inode- >i_count++; 

while (1) {// 循 环 以 下 过 程 ， 直 到 找到 校 梢 i 节点 为 止 
thisname=pathname:; 


if ©! S_ISDIR Cinode->i_mode ) ||! 
permission (inode,MAY_EXEC) ) { 


iput Cinode) ; 


return NULL; 


for (namelen=0; (c=get fs byte (pathnamet++) ) & & (c! 
=/) ; namelen++ ) 


/*nothing*/; 
if (! ©) 
return inode; 


if (! (bh=find_entry (&inode,thisname,namelen, &de) ) ) {//de 
会 指向 dev 目 录 项 


iput (inode) ; 


return NULL; 


inr=de-> inode; // 通 过 目录 项 找到 i 节点 号 


idev=inode->i_dev; // 注 意 ， 这 个 inode 是 根 i 节 点 ， 这 里 通过 根 i 节 
点 找到 设备 号 


brelse (bh) ; 
iput (inode) ; 


if C! Cinode=iget Cidev,inr) ) ) o ee 
inode_table[32] 的 指定 表 项 内 并 将 该 表 项 指针 返 


return NULL; 
} 


} 


inode _table[32] 用 来 管理 所 有 被 打开 文件 的 i 节 
A; iget O 函数 根据 i 节点 号 和 设备 写 ， 将 文件 i 节 
点 载 入 inode table[32]。 











获得 dev 目 录 文 件 i 节 点 的 情景 如 图 4-4 所 示 。 
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图 4-4 获得 dev 的 ij A 


4. 人 确定 dev 目 录 文 件 i 节 点 为 枝 档 (topmost) i 市 


获取 枝 档 节点、 目标 文件 i 市 点 的 执行 路 线 如 
图 4-5 所 示 。 


根 i 节 点 
确定 起 始 i 节 点 al 
| © 普通 目录 文件 i 节 点 
搜索 "/" 字 符 


根据 目录 文件 i 节点 和 目录 名 说 明 最 后 一 次 循环 得 到 的 i 节点 
fa. PUR A aoc ee RA 就 是 枝 梢 i 节点。 MEEL 


@ 枝 梢 i 节 点 


@ 目标 文件 i 节 点 





从 目录 名 中 获取 目录 名 
对 应 目录 文 忻 的 i 节点 号 


根据 i 节点 号 和 设备 导 ， 
获得 下 一 级 目录 文件 i 节 点 


图 4-5 SRB. HERTE IN BUT 
线 图 
目录 项 、 目 录 文 件 以 及 文件 证 点 的 关系 图 ， 


在 第 3 章 3.3.3 节 中 已 经 介绍 。 


继续 遍历 并 解析 "/dev/tty0" 这 个 路 径 名 。 解 析 
的 技术 路 线 与 前 面 解析 dev 目 录 项 一 致 ， 但 结果 有 
所 不 同 ， 有 具体 执行 代码 如 下 : 





/代码 路 径 : fs/namei.c: 


static struct m_inode * get_dir (const char * pathname ) 


if ( (c=get fs_byte (pathname) ) ==") { 
inode=current- > root; 


pathname++; 


selse if I 

inode=current- > pwd; 

else 

return NULL; /*empty name is bad*/ 
inode->i_count++; 

while (1) {V 循 环 以 下 过 程 ， 直 到 找到 校 梢 i 节 点 为 止 


thisname=pathname; /前 面 的 解析 工作 使 thisname 指 癌 /dewtty0 路 径 


名 中 tty0 前 面 的 t 


if ©! S_ISDIR (inode->i mode) ||! 


permission (inode,MAY EXEC) ) { 


=) ; 


iput Cinode) ; 

return NULL; 

} 

/继续 碍 找 /， 最 后 过 历 完 路 径 字 符 串 ，c 为 \0' 跳 出 循环 


for (namelen=0; (c=get fs byte (pathname++) ) && (c! 
namelen++ ) 


/*nothing*/; 


if (! c) 


return inode; // 将 枝 档 i 节点 返回 

if (C! (bh=find entry ( &inode,thisname,namelen, &de) ) ) { 
iput (inode) ; 

return NULL; 

} 

inr=de-> inode; 

idev=inode- >i_dev; 

brelse (bh) ; 

iput (inode) ; 

if (! Cinode=iget Cidev,inr) ) ) 


return NULL; 











Cia aE, FITE AMIE ANOS FE, EN 


4I|\0', c=get_fs_byte (pathnamet++) 这 个 条 件 为 


Bo BBMM. TOC RRR a E BY EE TM E 
HWY, ÆFIR Peene 它 后 面 的 tty0 束 是 
目标 文件 的 文件 名 ， 这 个 文件 名 存储 在 /前 面 dev 目 
录 文 件 中 的 tty0 目 录 项 内 ; 通过 dev 目 录 文 件 ， 就 可 
以 最 终 找到 tty0 文 件 。 我 们 将 dev 目 录 文 件 的 i 节 点 ， 
命名 为 枝 桶 i 节操 。 











获取 枝 档 i 节点 后 ， 还 需要 确定 目标 文件 目录 
名 的 “ 首 字 符 地 址 ”和 “名 字 长 度 ” 这 两 个 信息 ， 用 它 
们 与 虚拟 盘 中 存储 的 目录 名 进行 比 对 。 这 样 ， 围 绕 
枝 梢 i 节点 开展 的 工作 就 完成 了 。 获 取 目 录 名 信息 的 
代码 如 下 : 











/代码 路 径 : fs/namei.c: 
static struct m_inode * dir_namei (const char * pathname, 


int * namelen,const char ** name ) 


char c; 

const char * basename; 

struct m_inode * dir; 

if C! (dir=get_dir (pathname) ) ) ARIT A MIPIT BL 
return NULL; 


basename=pathname; 





/逐个 通 历 /devtty0 字 符 串 ， 每 次 循环 部 将 一 个 字符 复制 给 c， 直 到 
字符 串 结束 


while (c=get fs _ byte (pathname++) ) 

if es) 

basename=pathname; 

*namelen=pathname-basename-1; /确定 tty0 名 字 的 长 度 
*name=basename; // 得 到 tty0 中 第 一 个 字符 的 地 址 


return dir; 





5. WAE ttyO CEA 


第 二 阶段 获取 目标 文件 市 反 的 代码 与 前 面 获 
FUSS AAT A EY AS ES ARR RA BU, tHe BT 
调用 find_entry《〈) 函数 ， 将 目标 文件 的 目录 项 
(tty0) 载 入 缓冲 块 ， 并 从 目录 项 中 获得 i 节操 号 ， 
再 调用 iget〈) 函数 ， 通 过 i 市 点 号 和 设备 写 ， 在 虚 
拟 盘 上 获取 tty0 文 件 的 节点， 最 终 将 此 i 节操 返回 ， 
执行 代码 如 下 : 





/代码 路 径 : fs/namei.c: 

int open_namei (const char * pathname,int flag,int mode, 
struct m_inode ** res_inode ) 

l 

const char * basename; 


int inr,dev,namelen; 


struct m_inode * dir, *inode; 

struct buffer_head * bh; 

struct dir_entry * de; 

if ( (flag&O_TRUNC) & &! (flag&O_ACCMODE) ) 
flagi=O_WRONLY; 

mode & =0777 & ~current- > umask; 

mode|=I_REGULAR; 


if (! (dir=dir namei (pathname, &namelen, &basename) ) ) // 


得 到 了 枝 梢 i 节点 
return-ENOENT; 
if (! namelen) {/*special case: '/usr/‘etc*/ 
if (! (flag& CO_ACCMODE|O_CREAT|O_TRUNC) ) ) { 
*res_inode=dir; 


return 0; 


iput (dir) ; 


return-EISDIR; 


} 


// 通 过 枝 梢 1 节 点， 以 及 掌握 的 关于 tty0 的 情况 ， 将 tty0 这 一 日 录 项 载 
入 缓冲 块 ，de 指 同 tty0 目 录 项 


bh=find_entry ( &dir,basename,namelen, &de) ; 


if C! bh) {wtty0 目 录 项 找到 了 ， 绥 冲 块 不 可 能 为 衬 ， 这 中 此 时 不 会 
执行 


if (! (flag&O CREAT) ) { 
iput (dir) ; 

return-ENOENT; 

} 

if (! permission (dirMAY WRITE) ) { 
iput (dir) ; 

return-EACCES; 

} 

inode=new_inode (dir->i_dev) ; 
if (! inode) { 

iput (dir) ; 


return-ENOSPC; 


inode->i_uid=current- > euid; 

inode- > i_mode=mode; 

inode- > i_dirt=1; 

bh=add_entry (dir,basename,namelen, &de) ; 
if C! bh) { 

inode- > i_nlinks--; 

iput (inode) ; 

iput (dir) ; 


return-ENOSPC; 


de- > inode=inode->i_num; 
bh->b_dirt=1; 

brelse (bh) ; 

iput (dir) ; 
*res_inode=inode; 


return 0; 


} 

inr=de-> inode; /得 到 i 节 点 号 

dev=dir->i_dev; /得 到 虚拟 盘 的 设备 号 

brelse (bh) ; 

iput (dir) ; 

if (flag& O_EXCL) 

retumn-EEXIST; 

if C! Ginode=iget (dev,inr) ) ) /tty0 这 个 文件 的 i 节点 
retunn-EACCES; 

if ( (S_ISDIR Cinode->i_mode) & & (flag&O_ACCMODE) ) || 
! permission (inode,ACC_MODE (flag) ) ) { 

iput Cinode) ; 


return-EPERM; 


inode->i_atime=CURRENT_TIME:; 
if (flag& O_TRUNC) 


truncate (inode) ; 


*res_inode=inode; // 将 此 i 节点 传递 给 sys_open 


return 0; 





查找 tty0 文 件 i 节 点 的 情景 如 图 4-6 所 示 。 
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进程 0 进程 1 


图 4-6 查找 tty0 文 件 i 节 点 


6. 确 定 tty0 是 字符 设备 文件 


分 析 tty0 文 件 的 节点 属性 i_mode， 会 得 知 它 是 
设备 文件 ， 再 通过 i 点 中 的 i_zone[0]， 确 定 设备 
号 ， 并 对 current->tty 和 tty_table 进 行 设置 。 执 行 代 
码 如 下 : 





/代码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode ) 


if ( Ci=open_namei (filename,flag,mode, &inode) ) <0) { 
current- > filp[fdJ=NULL; 

f->f_count=0; 

return i; 

} 


/*ttys are somewhat special (ttyxx major==4, tty major==5) */ 


if (S_ISCHR (inode->i_mode) ) /通过 检测 tty0 文 件 的 i 节 点 属 
得 知 它 是 设备 文件 


if (MAJOR Cinode->i_zone[0]) ==4) {/ 得 知 设备 号 是 4 
if Ccurrent->leader& & current->tty<0) { 

1/ 设置 当前 进程 的 tty 号 为 该 i 节点 的 子 设备 号 
current->tty=MINOR (inode->i zone[0]) ; 

/设置 当前 进程 ty 对 应 的 tty 表 项 的 父 进程 组 号 为 进程 的 父 进程 组 号 
tty _table[current->tty].pgrp=current- > pgrp; 

} 

else if (MAJOR Cinode->i_zone[0]) ==5) 

if Ccurrent->tty<0) { 

iput (inode) ; 

current- > filp[fdJ=NULL; 

f->f_count=0; 


return-EPERM; 


/*Likewise with block-devices: check for floppy_change*/ 


if (S_ISBLK (inode->i_mode) ) 

check _disk_change (inode->i_zone[0]) ; 
f- > f_mode=inode- > i_mode; 
f->f_flags=flag; 

f->f_count=1; 

f- >f_inode=inode; 

f->f_pos=0; 

return (fd) ; 


} 











对 i 后 属性 进行 分 析 和 相关 设置 的 情景 如 图 4- 


7 所 示 。 
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图 4-7 处 理 当前 进程 的 tty 
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图 4-7 (Œ) 
7.1 Efile table[0] 


sys open () 最 后 要 针对 file_table[64] 中 与 进程 
1 的 外 p[20] 对 应 的 表 项 file_table[0] 进 行 设 置 。 这 


样 ， 系 统 通过 file_table[64]， 建 立 了 进程 1 与 tty0 文 
件 (标准 输入 设备 文件 ) i 节点 的 对 应 关系 。 执 行 代 
ASU F: 








/代码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode ) 


if ( (i=open namei (filename,flag,mode, &inode) ) <0) { 
current- > filp[fdJ=NULL; 

f->f_count=0; 

return 1; 

} 

/*ttys are somewhat special (ttyxx major==4, tty major==5) */ 
if (S_ISCHR (inode->i mode) ) 


if (MAJOR (Cinode->i_zone[0]) ==4) { 


if (current->leader& & current->tty<0) { 
current->tty=MINOR Cinode->i_zone[0]) ; 
tty _table[current->tty].pgrp=current- > pgrp; 
} 

else if (MAJOR Cinode->i_zone[0]) ==5) 
if Ccurrent->tty<0) { 

iput (inode) ; 

current- > filp[fdJ=NULL; 

f->f_count=0; 


return-EPERM; 


/*Likewise with block-devices: check for floppy_change*/ 

if (S_ISBLK (Cinode->i_mode) ) 

check _disk_change (inode->i_zone[0]) ; 
f->f_mode=inode->i_mode; /用 该 节点 属性 ， 设 置 文件 属性 
f->f_flags=flag; // 用 flag 参 数 ， 设 置 文件 标识 


f->f_count=1; // 将 文件 引用 计数 加 1 


f->f_inode=inode; /文件 与 ji 节点 建立 关系 
f->f_pos=0; /将 文件 读 写 指针 设置 为 0 
return (fd) ; 


} 





设置 file_table[0] 及 返回 文件 句柄 的 情景 如 图 4- 


8 所 示 。 
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图 4-8 设置 file tablef0] 及 返回 文件 句柄 


4.1.2 ”打开 标准 输出 、 标 准 错误 输出 设备 
文件 


4.1.1 节 讲 解 了 通过 open() 函数 打开 标准 输 
入 设备 文件 。 下面 要 打开 标准 输出 、 标 准 错误 输出 
设备 文件 ， 不 同 之 处 在 于 这 里 用 的 是 复制 文件 句柄 
HJ A 





open () 函数 返回 后 ， 进 程 1 在 tty0 文 件 已 经 被 
打开 的 基础 上 ， 通 过 调用 dup O 函数 ， 复 制 文件 
句柄 ， 一 共 复 制 了 两 次 。 


第 一 次 执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void init (void ) 


int pid,i; 
setup ( (void *) &drive_info) ; 
(void) open ("/dev/ttyO", O_RDWR, 0) ; 
(void) dup (0) ; /复制 句柄 ， 构 建 标准 输 出 设备 
(void) dup (0) ; 
printf ("%d buffers=%d bytes buffer space\n\r", NR_BUFFERS, 
NR _BUFFERS * BLOCK SIZE) ; 


printf ("Free mem: %d bytes\n\r", memory_end- 
main_memory_start) ; 


if C! Cpid=fork © ) ) {Wf 下 为 进程 2 的 代码 
close (0) ; 

if Copen ("/etc/rc", O_RDONLY, 0) ) 

_exit (1) ; 

execve ("/bin/sh", argv_rc,envp_rc) ; 


exit (2) ; 


if (pid>0) 
while (pid! =wait (&i) ) 
/*nothing*/; 


dup ©) 函数 最 终 会 映射 到 sys_dup〈) 这 个 系 
统 调用 函数 中 〈 这 一 映射 过 程 与 open O 函数 到 
sys_open () 函数 的 映射 过 程 大 体 一 致 ) ， 并 调用 
到 dupfd《〈《) PHA, AICP AIA, PUT VES aH 
Pa 


/代码 路 径 : fs/fcntl.c: 
int sys_dup (unsigned int fildes) /dup 对 应 的 系统 调用 函数 
{ 


return dupfd (fildes, 0) ; /执行 复制 句柄 


确定 具备 复制 条 件 后 ， 在 进程 1 的 filp[20] 中 寻 
找到 空 亲 项， 此 时 会 找到 第 二 项 。 即 flp[1]。 将 
filp[0] 中 存储 的 tty0 文 件 指针 复制 进 flp[1] 中 ， 并 将 
file_table[0] 中 f_count 文 件 引用 计数 这 一 字段 的 数值 
累加 为 2， 以 此 获得 进程 1 打开 标准 输出 设备 文件 
tty0 的 效果 。 执 行 代码 如 下 : 





/代码 路 径 : fs/fentl.c: 
static int dupfd (unsigned int fd,unsigned int arg) 


{ 








if (fd>=NR_OPEN||! current->filp[fd]) /检测 是 否 具 备 复 制 文件 
句柄 的 条 件 


return-EBADF; 
if Carg> =NR_OPEN ) 


retumn-EINVAL; 


while (arg<NR_OPEN ) 


if Ccurrent->filp[arg]) /在 进程 1 的 fp[20] 中 寻找 空闲 项 〈 此 时 是 
第 二 项 ) ， 以 便 复制 


arg++; 
else 

break; 

if (arg->=NR_OPEN ) 
return-EMFILE; 


current->close_on_exec&=~ (1<<arg) ; 


/复制 文件 句柄 ， 建 立 标准 输出 设备 ， 并 相应 增加 文件 引用 计数 ， 
f_count 为 2 


(current- > filp[arg]=current-> filp[fd]) ->f_count++; 
return arg; 


} 








打开 标准 输出 设备 文件 的 情景 如 图 4-9 所 示 。 
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图 4-9 复制 文件 句柄 ， 打 开标 准 输出 设备 文件 


dup 返 回 后 ， 进 程 1 再 次 调用 dup O 函数 ， 第 
二 次 复制 文件 句柄 ， 构 建 标准 错误 输出 设备 。 





执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void init (void) 


int pid,i; 
setup ( (void *) &drive_info) ; 

(void) open ("/dev/ttyO", O_RDWR, 0) ; 

(void) dup (0) ; /复制 句柄 ， 构 建 标准 输 出 设备 

(void) dup (0) ; /继续 复制 句柄 ， 构 建 标 准 错误 输出 设备 
printf ("%d buffers=%d bytes buffer space\n\r", NR_BUFFERS, 
NR _BUFFERS * BLOCK SIZE) ; 


printf ("Free mem: %d bytes\n\r", memory_end- 
main_memory_start) ; 


if C! Cpid=fork © ) ) {Wf 下 为 进程 2 的 代码 
close (0) ; 

if Copen ("/etc/rc", O_RDONLY, 0) ) 

_exit (1) ; 

execve ("/bin/sh", argv_rc,envp_rc) ; 


exit (2) ; 


if (pid>0) 
while (pid! =wait (&i) ) 
/*nothing*/; 


再 次 执行 到 dupfd () 函数 中 ， 与 前 面 的 技术 
路 线 完 全 一 致 ， 内 核 还 会 在 进程 1 的 fp[20] 中 寻找 
空 亲 项 ， 但 这 次 找到 的 是 第 三 项 ， 即 多 p[2]。 与 前 
面相 同 ， 将 filp[0] 中 存储 的 tty0 文 件 指针 复制 进 
filp[2] 中 ， 并 将 fle_table[0] 中 f_count 文 件 引 用 计数 
这 一 字段 的 数值 累加 为 3， 以 此 获得 进程 1 已 经 打开 
标准 错误 输出 设备 文件 的 相同 效果 。 








执行 代码 如 下 : 


/代码 路 径 : fs/fentl.c: 


static int dupfd (unsigned int fd,unsigned int arg) 


{ 








if (fd>=NR_OPEN||! current->filp[fd]) /检测 是 否 具 备 复 制 文件 
句柄 的 条 件 


return-EBADF; 

if (arg->=NR_OPEN ) 
return-EINVAL; 

while Carg<NR_OPEN) 


if (current->filp[arg]) /在 进程 1 的 fp 中 寻找 空 亲 项 〈 此 时 是 第 三 
项 ) ， 以 便 复制 


arg++; 
else 

break; 

if (arg->=NR_OPEN ) 
return-EMFILE; 


current->close_on_exec&=~ (1<<arg) ; 


/复制 文件 句柄 ， 建 立 标准 错误 输出 设备 ， 继 续 增 加 文件 引用 计 
数 ，f_count 为 3 


(current->filp[arg]=current-> filp[fd]) ->f_count++; 
return arg; 


} 


打开 标准 错误 输出 设备 文件 的 情景 如 图 4-10 所 
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图 4-10 再 次 复制 文件 句柄 ， 打 开标 准 错误 输出 
设备 文件 





Pk, fil) shell Pr ris BE IZA sig hy ET A oC Hh SL 
件 、 标 准 输 出 设备 文件 和 标准 错误 输出 设备 文件 都 
己 经 打开 ， 这 也 意味 痢 此 后 可 以 在 程序 中 使 用 
printf ©) 函数 。〈stdio.h 中 的 stdio 就 是 standard 





input/output 的 意思 


4.2 ”进程 1 创建 进程 2 并 切换 到 进程 2 执 


= 


行 


接 下 来 ， 进 程 1 将 调用 fork〈) 函数 ， 创 建 进程 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 

void init (void) 

{ 

int pid,i; 

setup ( (void *) &drive_info) ; 
(void) open ("/dev/ttyO", O_RDWR, 0) ; 
(void) dup (0) ; 


(void) dup (0) ; 


printf ("%d buffers=%d bytes buffer space\n\r", NR_BUFFERS, 
NR _BUFFERS * BLOCK_SIZE) ; 


printf ("Free mem: %d bytes\n\r", memory_end- 
main_memory_start) ; 


if (C! (pid=fork © ) ) {/ 进 程 1 创建 进程 2 
close (0) ; 

if Copen ("/etc/rc", O_RDONLY, 0) ) 
_exit (1) ; 

execve ("/bin/sh", argv_rc,envp_rc) ; 

_exit (2) ; 

} 

if (pid>0) 

while (pid! =wait (&i) ) 

/*nothing*/; 


fork 有 映射 到 sys_fork 的 过 程 ， 本 书 3.1.1 节 中 已 经 
介绍 。 这 里 的 执行 过 程 是 一 致 的 ， 即 调用 
find_empty_process () 国 数 ， 为 进程 2 寻找 空闲 的 
task， 之 后 调用 copy_process () 函数 ， 复 制 进程 。 


执行 代码 如 下 : 


/代码 路 径 : kernel/system_call.s: 
.align 2 

_sys_execve: 

lea EIP (%esp) , %eax 

pushl %eax 

call _do_execve 

addl $4, %esp 

ret 


align 2 


_sys_fork: 

call _find_empty_process/ 为 进程 ?寻找 空闲 task， 并 确定 新 的 进程 号 
testl %eax, Yeax 

js 1f 

push %gs 

pushl %esi 

pushl %edi 

pushl %ebp 

pushl %eax 

call _copy_process// 复 制 进程 2 
addl $20, %esp 

1: ret 

_hd_interrupt: 

pushl %eax 

pushl %ecx 

pushl %edx 


push %ds 


push %es 

push %fs 

movl $0x10, %eax 

mov %ax, %ds 

mov %ax, %es 

movl $0x17, %eax 

mov %ax, %fs 

movb $0x20, %al 

outb %al, $0xAO#EOI to interrupt controller#1 


jmp 1f#give port chance to breathe 








寻找 新 task 的 情景 如 图 4-11 所 示 : 
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图 4-11 寻找 新 task 


进入 copy_process〈) 函数 后 ， 会 为 进程 2 的 
task_struct 以 及 内 核 栈 申请 页 面 ， 并 复制 
task_struct， 随 后 对 进程 2 的 task_struct 进 行 各 种 个 性 
化 设置 ， 包 括 各 个 寄存 器 的 设置 、 内 存 页 面 的 管理 
设置 、 共 享 文件 的 设置 、GDT 表 项 的 设置 等 。 其 t 
曾 过 程 与 本 书 第 3 半 3.1 节 中 进程 0 创建 进程 1 的 过 程 


大 体 一 致 ， 执 行 代码 如 下 : 





/代码 路 径 : kernel/system_call.s: 

int copy_process Cint nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 

long fs,long es,long ds, 

long eip,long cs,long eflags,long esp,long ss ) 

{ 

struct task_struct * p; 

int i; 

struct file * f; 

p= (struct task_struct *) get_free_page © ; /为 进程 2 申请 页 面 
if (C! p) 

return-EAGAIN; 

task[nr]=p; /确定 进程 2 task_struct 的 地 址 指针 载 入 task 指 定位 置 


*p=*current; /*NOTE! this doesn't copy the supervisor stack*/// 复 制 
task_struct 结 构 


p->state=TASK_UNINTERRUPTIBLE; /设置 进程 2 为 不 可 中 断 等 
待 状态 


p->pid=last_pid; // 对 进程 2 进行 个 性 化 设置 
p-> father=current- > pid; 

p->counter=p- > priority; 

p->signal=0; 

p->alarm=0; 

p->leader=0; /*process leadership doesn't inherit*/ 
p->utime=p->stime=0; 

p->cutime=p- > cstime=0; 
p->start_time=jiffies ; 

p- >tss.back_link=0; 
p->tss.espO=PAGE_SIZE+ (long) p; 
p->tss.ssO=0x10; 

p->tss.eip=eip; 

p->tss.eflags=eflags; 


p->tss.eax=0; 


p- > tss.ecx=ecx; 

p->tss.edx=edx; 

p->tss.ebx=ebx; 

p->tss.esp=esp; 

p->tss.ebp=ebp; 

p- > tss.esi=esi; 

p->tss.edi=edi; 

p->tss.es=es & Oxffff; 
p->tss.cs=cs & Oxffff; 
p->tss.ss=ss & Oxffff; 
p->tss.ds=ds & Oxffff; 
p->tss.fs=fs & Oxffff; 
p->tss.gs=gs & Oxffff; 
p->tss.ldt=_LDT (nr) ; 
p->tss.trace_bitmap=0x80000000; 
if (last_task_used_math==current ) 


__asm__ ("clts; fnsave%0": "m" (p->tss.i387) ) ; 


if (copy_mem (nr,p) ) {/W 设 置 进程 2 的 分 页 管理 
task[nr]=NULL; 
free_page ( (long) p) ; 


retumn-EAGAIN; 


for (i=0; i<NR_OPEN; i++) /以 下 为 进程 2 共享 进程 1 的 文件 
if (f=p-> filp[i]) 

f->f_count++; 

if (current-> pwd) 

current- > pwd- > i_count++; 

if (current->root ) 

current->root- >i_count++; 

if (current-> executable ) 

current- > executable- >i_count++; 


set_tss_desc (gdt+ (nr< <1) +FIRST_TSS_ENTRY, & (p-> 
tss) ) ; /设置 进程 2 在 


set_Idt_desc (gdt+ (nr< <1) +FIRST_LDT_ENTRY, & (p-> 
ldt) ) ; WGDT 中 的 表 项 


p->state=TASK_RUNNING; /*do this last,just in case*/// 设 置 进程 2 


return last_pid; 


} 





复制 进程 及 部 分 个 性 化 设置 的 情景 如 图 4-12 所 
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图 4-12 复制 进程 及 部 分 设置 


为 进程 2 复制 页 表 和 设置 页 目录 项 的 情景 如 图 
4-13 上 所 示 。 
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图 413 复制 页 表 和 设置 页 目录 项 


对 进程 2 共享 进程 1 的 文件 进行 调整 的 情景 如 图 
4-14 所 示 。 


进程 2 创建 完毕 后 ，fork() 函数 返回 ， 返 回 值 
为 2， 因 此 ! Cpid=fork ©) ) 值 为 假 〈 理 由 在 本 书 


3.1.70 POA) ， 于 是 调用 wait O 函数 。 此 
函数 的 功能 是 : 如 果 进 程 1 有 等 竺 退出 的 子 进程 ， 

就 为 该 进程 的 退出 做 善后 工作 ;如 果 有 子 进 程 ， 但 
并 不 等 待 退出 ， 则 进行 进程 切换 ， 如 果 没 子 进程 ， 
函数 返回 。 
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图 4-14 调整 进程 2 共享 进程 1 的 文件 


执行 代码 如 下 : 





/代码 路 径 : init/main.c: 


void init (void ) 


int pid,i; 
setup ( (void *) &drive_info) ; 
(void) open ("/dev/ttyO", O_RDWR, 0) ; 
(void) dup (0) ; 
(void) dup (0) ; 
printf ("%d buffers=%d bytes buffer space\n\r", NR_BUFFERS, 
NR _BUFFERS * BLOCK_SIZE) ; 


printf ("Free mem: %d bytes\n\r", memory_end- 
main_memory_start) ; 


if (C! (pid=fork © ) ) {/ 括 号 里 面 为 进程 2 执行 的 代码 
close (0) ; 


if Copen ("/etc/rc", O_RDONLY, 0) ) 


_exit (1) ; 

execve ("/bin/sh", argv_rc,envp_rc) ; 
_exit (2) ; 

} 

if (pid>0) 


while (pid! =wait (&i) ) /进程 1 等 待 子 进程 退出 ， 最 终 会 切换 到 
进程 2 执行 


/*nothing*/; 


wait © 函数 最 终 会 映射 到 系统 调用 函数 
sys_waitpid © 中 执行 ， 映 射 方式 与 fork 到 sys_fork 
大 体 一 致 。sys_waitpid O 函数 先 要 对 所 有 的 进程 
进行 扣 历 ， 先 确定 哪个 进程 是 进程 1 的 子 进程 ， 由 
于 进程 1 刚刚 创建 了 子 进程 ， 即 进程 2， 于 是 进程 2 
锌 选中 了 ， 执 行 代码 如 下 : 





/代码 路 径 : kernel/exit.c: 


int sys_waitpid (pid_t pid,unsigned long * stat_addr,int options) /wait 
对 应 sys_waitpid 系 统 调用 


{ 

int flag,code; 

struct task_struct ** p; 

verify _area (stat_addr, 4) ; 

repeat: 

flag=0; 

for (p=&LAST_TASK; p> &FIRST_TASK; --p) { 
if (! *p||*p==current ) 

continue; 


if C (*p) ->father! =current->pid) //fm H “4 HERE, BIER 
的 子 进程 ， 此 时 会 是 进程 2 


continue; 
if (pid>0) { 


if ( (*p) ->pid! =pid) 


continue; 

elseif (! pid) { 

if ( (*p) ->pgrp! =current->pgrp ) 

continue; 

else if (pid! =-1) { 

if ( (*p) ->pgrp! =-pid) 

continue; 

} 

switch € (*p) ->state) {/ 判 断 进 程 2 的 状态 

case TASK_STOPPED: /如 果 进 程 2 是 停止 状态 ， 将 在 这 里 处 理 
if (! Coptions& WUNTRACED) ) 

continue; 

put _fs long (0x7f,stat_addr) ; 

return (*p) ->pid; 

case TASK_ZOMBIE: /如 果 进 程 2 是 僵 死 状态 ， 将 在 这 里 处 理 
current->cutime+= (*p) ->utime; 


current->cstime+= (*p) ->stime; 


flag= (*p) ->pid; 

code= (*p) ->exit_code; 
release (*p) ; 

put _fs long (code,stat_addr) ; 
return flag; 


default: /此 时 进程 2 是 就 绪 态 ， 所 以 到 这 里 去 执行 ， 将 flag 标 志 设 
置 为 1 并 跳出 循环 


flag=1; 


continue; 





得 找 进 程 1 的 子 进程 的 情景 如 图 4-15 所 示 。 





再 对 进程 2 进行 分 析 ， 确 定 进 程 2 并 不 准备 退 


出 ， 于 是 设置 flag 标 志 为 1， 该 标志 将 导致 进程 切 
换 ， 执 行 代码 如 下 : 
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Al 4-15 碍 找 进 程 1 的 子 进程 





/代码 路 径 : kernel/exit.c: 


int sys_waitpid (pid_t pid,unsigned long * stat_addr,int options) /wait 
对 应 sys_waitpid 系 统 调用 


{ 


int flag,code; 

struct task_struct ** p; 

verify _area (stat_addr, 4) ; 

repeat: 

flag=0; 

for (p=&LAST_TASK; p> &FIRST_TASK; --p) { 
if (! *p||*p==current ) 

continue; 


if C (*p) ->father! =current->pid) //fm H “4 HERE, BIER 
的 子 进程 ， 此 时 会 是 进程 2 


continue; 

if (pid>0) { 

if ( (*p) ->pid! =pid) 

continue; 

elseif (! pid) { 

if ( (*p) ->pgrp! =current->pgrp ) 


continue; 


else if (pid! =-1) { 

if ( (*p) ->pgrp! =-pid) 

continue; 

} 

switch € (*p) ->state) {/ 判 断 进程 2 的 状态 

case TASK_STOPPED: /如 果 进 程 2 是 停止 状态 ， 将 在 这 里 处 理 
if (! Coptions& WUNTRACED) ) 

continue; 

put _fs long (0x7f,stat_addr) ; 

return (*p) ->pid; 

case TASK_ZOMBIE: /如 果 进 程 2 是 僵 死 状态 ， 将 在 这 里 处 理 
current->cutime+= (*p) ->utime; 

current->cstime+= (*p) ->stime; 

flag= (*p) ->pid; 

code= (*p) ->exit_code; 

release (*p) ; 


put _fs long (code,stat_addr) ; 


return flag; 


default: //UCINRERE22 WIA aS, ATLA Bx BORAT, -Keflagha a it 
置 为 1 并 跳出 循环 


flag=1; 


continue; 








判断 进程 2 的 状态 并 设置 fag 标 志 的 情景 如 图 4- 
16 所 示 。 
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图 4-16 判断 进程 2 的 状态 并 设置 fag 标 志 


进入 if Clag) 去 执行 ， 内 核 先 将 进程 1 的 状态 
设置 为 可 中 断 等 待 状态 ， 之 后 ， 就 调用 
schedule O 了 艺 数 切换 进程 ， 此 时 唯一 处 于 就 绪 态 
的 是 进程 2， 因 此 ， 代 码 将 切换 到 进程 2 去 执行 
(schedule 的 执行 过 程 已 在 第 3 章 3.2 节 中 介绍 ) ， 执 
行 代码 如 下 : 





/代码 路 径 : kernel/exit.c: 


int sys_waitpid (pid_t pid,unsigned long * stat_addr,int options) //wait 
对 应 sys_waitpid 系 统 调 用 


switch € (*p) ->state) {/ 判 断 进 程 2 的 状态 

case TASK_STOPPED: /如 果 进 程 2 是 停止 状态 ， 将 在 这 里 处 理 
if (! Coptions& WUNTRACED) ) 

continue; 

put _fs long (0Ox7f,stat_addr) ; 

return (*p) ->pid; 

case TASK_ZOMBIE: /如 果 进 程 2 是 僵 死 状态 ， 将 在 这 里 处 理 
current->cutime+= (*p) ->utime; 

current->cstime+= (*p) ->stime; 

flag= (*p) ->pid; 

code= (*p) ->exit_code; 

release (*p) ; 


put _fs long (code,stat_addr) ; 


return flag; 


default: //UCINRERE2 2 WIAA aS, ATLA Bax FORT, -Keflagha a it 
置 为 1 并 跳出 循环 


flag=1; 


continue; 


} 

if (flag) { 

if (options & WNOHANG ) 
return 0; 


current->state=TASK_INTERRUPTIBLE; /此 时 得 知 进程 1 没有 退 
出 的 子 进程 ， 所 以 将 其 设置 为 可 中 断 等 待 状态 


schedule © ; /切换 到 进程 2 去 执行 

if (! Ccurrent->signal&=~ (1<< (SIGCHLD-1) ) ) ) 
goto repeat; 

else 


return-EINTR; 


return-ECHILD; 


} 


切换 到 进程 2 的 情景 如 图 4-17 所 示 。 
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图 4-17 切换 到 进程 2 


4.3 加载 shell 程 序 


4.3.1 关闭 标准 输入 设备 文件 ， 打 开 rc 文 件 


轮转 到 进程 2 后 ， 进 程 2 最 开始 的 执行 技术 路 
线 ， 与 本 书 3.3 节 中 介绍 的 轮转 到 进程 1 执行 的 技术 
路 线 大 体 一 致 。 在 确定 让 (! (pid=fork () ) ) 这 
条 语句 中 条 件 为 真 后 ， 调 用 close O 函数 来 关闭 标 
准 输入 设备 文件 ， 并 用 rc 文件 蔡 换 它 ， 执 行 代码 如 
F: 


/代码 路 径 : init/main.c: 
void init (void) 
{ 


int pid,i; 


setup ( (void *) &drive_info) ; 

(void) open ("/dev/ttyO", O_RDWR, 0) ; 

(void) dup (0) ; 

(void) dup (0) ; 
printf ("%d buffers=%d bytes buffer space\n\r", NR_BUFFERS, 
NR _BUFFERS * BLOCK_SIZE) ; 


printf ("Free mem: %d bytes\n\r", memory_end- 
main_memory_start) ; 


if C! (pid=fork © ) ) { 

close (0) ; /关闭 标准 输入 设备 文件 

if Copen C"/etc/rc", O_RDONLY, 0) ) /用 rc 文件 蔡 换 该 设备 文件 
_exit (1) ; 

execve ("/bin/sh", argv_rc,envp_rc) ; /加 载 shell 程 序 


_exit (2) ; 


if (pid>0) 


while (pid! =wait (&i) ) 


/*nothing*/; 


ee 


close () 函数 最 终 会 映射 到 sys_close © 函数 
中 执行 (与 前 面 讲解 的 其 他 以 sys_ 为 前 级 的 函数 类 
似 ) 。 由 于 进程 2 继承 了 进程 1 的 管理 信息 ， 因 此 其 
filp[20] 中 文件 指针 存储 情况 与 进程 1 是 一 致 的 。 
close (0) 就 是 要 将 和 锯 p[20] 第 一 项 清空 〈 就 是 关闭 
标准 输入 设备 文件 tty0) ， 并 未 减 fle_table[64] 中 
f_count 的 引用 计数 。 后 面 调用 open() KA, He 
在 filp[20] 中 选择 第 一 项 来 建立 进程 2 与 rc 文件 i 节点 
的 关系 ， 以 此 达到 “rc” 奉 换 “tty0” 的 效果 。rc 文 件 是 
脚本 文件 ， 其 特点 是 ， 文 件 中 记录 着 一 些 命 令 ， 应 
用 程序 通过 解析 这 些 命令 来 确定 执行 任务 。 











close () 国 数 的 执行 代码 如 下 : 





/代码 路 径 : fs/open.c: 

int sys_close (unsigned int fd) /close 对 应 的 系统 调用 函数 
{ 

struct file * filp; 

if (fd>=NR_OPEN) 

retun-EINVAL; 

current->close_on_exec&=~ (1<<fd) ; 


if C! (Cfilp=current->filp[fd]) ) /获取 进程 2 标准 输入 设备 文件 的 
Ett 


retun-EINVAL; 

current->filp[fdJ=NULL; /进程 2 与 该 设备 文件 解除 关系 
if (filp->f_count==0 ) 

panic ("Close: file count is 0") ; 

if (--filp->f_count) /该 设备 文件 引用 计数 递减 


return (0) ; 


iput (filp->f_inode) ; 
return (0) ; 


} 


关闭 tty0 文 件 的 情景 如 图 4-18 所 示 。 
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图 4-18 关闭 tty0 文 件 


打开 rc 文件 的 情景 如 图 4-19 所 示 。 
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图 419 打开 rc 文件 


rc 文件 打开 后 ， 进 程 2 将 调用 execve O 函数 开 
始 加 载 shell 程 序 ， 执 行 代码 如 下 : 





/代码 路 径 : init/main.c: 


void init (void) 


int pid,i; 
setup ( (void *) &drive_info) ; 
(void) open ("/dev/ttyO", O_RDWR, 0) ; 
(void) dup (0) ; 
(void) dup (0) ; 
printf ("%d buffers=%d bytes buffer space\n\r", NR_BUFFERS, 
NR _BUFFERS * BLOCK SIZE) ; 


printf ("Free mem: %d bytes\n\r", memory_end- 
main_memory_start) ; 


if C! (pid=fork © ) ) { 

close (0) ; /关闭 标准 输入 设备 文件 

if Copen ("/etc/rc",; O_RDONLY, 0) ) /用 rc 文件 蔡 换 该 设备 文件 
_exit (1) ; 


/加 载 shell 程 序 ， 其 中 /bin/sh 为 shell 文件 路 径 ，argv_rc 和 envp_rc 分 
别 是 参数 及 环境 变量 


execve ("/bin/sh", argv_rc,envp_rc) ; 


exit (2) ; 


} 

if (pid>0) 

while (pid! =wait (&i) ) 
/*nothing*/; 


} 





值得 注意 的 是 ， 参 数 和 环境 变量 都 已 在 内 核 代 
人 码 中 事先 准备 。 有 具体 代码 如 下 : 





/代码 路 径 : initmain.c: 
static char * argv_rc[]={"/bin/sh", NULL}; // 为 shell 进 程 准 备 的 参数 


static char * envp_rc[]={"HOME=/", NULL,NULL}; // 为 shell 进 程 准 
备 的 环境 变量 





execve () 函数 最 终 会 映射 到 Sys_execve () 


中 去 执行 ， 代 码 如 下 : 





/代码 路 径 : kernel/system_call.s: 

.align 2 

_sys_execve: /Wexecve 函 数 对 应 的 系统 调用 

lea EIP (%esp) , %eax 

pushl %eax// 把 EIP 值 “所 在 栈 空间 的 地 址 值 ” 压 栈 

call _do_execve//do_execve 就 是 文 持 加 载 shell 程 序 的 主体 函数 
addl $4, %esp 

ret 


4.3.2 ”检测 shell 文 件 


1. 检 测 i 节 点 属性 


do_execve O 开始 执行 后 ， 先 调用 namei ©) 
函数 获取 shell 文 件 的 i 市 点。 此 函数 获取 i 节点 的 过 
程 与 4.1.1 市 中 介绍 的 他 点 获取 过 程 大 体 一 怪 。 之 
后 ， 检 测 节 点 属性 ， 以 此 确定 shell 程 序 是 否 具备 加 
载 条 件 。 具 体 代 人 码 如 下 : 














int do_execve (unsigned long * eip,long tmp,char * filename, 
char ** argv,char ** envp) 

{ 

struct m_inode * inode; 

struct buffer_head * bh; 


struct exec ex; 


unsigned long page[MAX_ARG_PAGES]; 

int i,argc,envc; 

int e_uid,e_gid; 

int retval; 

int sh_bang=0; 

unsigned long p= PAGE_SIZE * MAX_ARG_PAGES-4; 


if € COxffff&eip[1]) ! =0x000f) /通过 检测 特权 级 ， 来 判断 是 否 
Fe A RK VA J do_execve žit 


panic ("execve called from supervisor mode") ; /如 果 是 ， 就 会 死 


H TANEDE 





for (i=0; i<MAX ARG PAGES; i++) /*clear page-table*/ 


page[i]=0; /将 参数 和 环境 变量 的 页 面 指针 管理 表 清 零 


全 


if (! (Cinode=namei (filename) ) ) /*get executables inode*/// 获 取 


shell FEF PrE SCF ANT A 
return-ENOENT; 
argc=count (argv) ; /统计 参数 个 数 
envc=count (envp) ; /统计 环境 变量 个 数 


restart _interp: 


if ©! S_ISREG Cinode->i_mode) ) {/*must be regular file*/ 
retval=-EACCES; 

goto exec_etror2; 

} 

i=inode->i_mode; /通过 检测 i 节 点 的 uid 和 gid 属性 ， 来 判断 进程 2 


e_uid= (i&S_ISUID) ?inode->i_uid: current->euid; /是 否 有 权 
限 执 行 shell 程 序 


e_gid= (i&S_ISGID) ?inode->i_gid: current->egid; 


if (current->euid==inode->i_uid) /通过 分 析 文 件 与 当前 进程 的 从 
属 关 系 ， 调 整 i 节 点 属性 中 的 权限 位 


i> >=6; 
else if (current->egid==inode->i_gid) 
1 之 之 =3; 


if C! G&1l) & &V/ 如 果 用 户 没 有 权限 执行 该 程序 ， 则 退出 shell 的 
加 载 工 作 


! C Cinode->i_mode&0111) & &suser () ) ) { 
retval=-ENOEXEC; 


goto exec_etror2; 





获取 i 节点 信息 的 情景 如 图 4-20 所 示 。 
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图 4-20 获取 iT 人 点 信息 DA 


检测 i 节操 属性 的 情景 如 图 4-21 所 示 。 
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图 4-21 检测 i 节点 属性 


经 检测 shell 文 件 i 节 点 的 属性 得 知 ， 进 程 2 具 备 
执行 该 文件 中 程序 的 条 件 。 


2. 检 测 文件 头 属 性 


通过 i 节操 中 提供 的 设备 号 和 块 写 〈 文 件 尖 的 
块 写 为 i_zone[0]) 信息 ， 将 文件 头 载 入 缓冲 块 并 获 


取 其 信息 ， 如 图 4-22 和 图 4-23 所 示 。 执 行 代码 如 
下 : 





/代码 路 径 : fs/exec.c: 
int do_execve (unsigned long * eip,long tmp,char * filename, 


char ** argv,char ** envp ) 


if (! G&1) && 

// 如 果 用 户 没有 权限 执行 该 程序 ， 则 退出 shell 的 加 载 工 作 
! ( (inode->i mode&0111) & &suser © ) ) { 
retval=-ENOEXEC; 

goto exec_etror2; 

} 


/通过 ij 节点， 确定 shell 文 件 所 在 设备 的 设备 号 及 其 文件 头 的 块 号 
(Ci_zone[0]) ， 获 取 文 件 头 


if (! (bh=bread (inode->i_dev,inode->i_zone[0]) ) ) { 


retval=-EACCES; 
goto exec_etror2; 
} 


ex=* ( (struct exec *) bh->b_ data) ; 从 绥 冲 块 中 得 到 文件 头 的 信 


el 


if ( (bh->b_data[O]==#") & & (bh->b_data[/1J=="!') && C! 
sh_bang) ) { 


brelse (bh) ; 
if ((N_MAGIC (ex) ! =ZMAGIC|lex.a_trsize||ex.a_drsize|| 
ex.a_textt+ex.a_datat+ex.a_bss > 0x3000000]| 


inode->i_size<ex.a_texttex.a_datatex.a_syms+N_TXTOFF (ex) ) 


retval=-ENOEXEC; 

goto exec_etror2; 

} 

if (N_TXTOFF (ex) ! =BLOCK_SIZE) { 


printk ("%s: N TXTOFF! =BLOCK_SIZE.See a.out.h.", 
filename) ; 


retval=-ENOEXEC; 


goto exec_error2; 


if C! sh_bang) { 

p=copy_strings (envc,envp,page,p, 0) ; 
p=copy_strings (argc,argv,page,p, 0) ; 
if (C! p) { 

retval=-ENOMEM; 

goto exec_etror2; 


} 
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将 shell 文 件 头 读 入 缓冲 块 


进程 0 进程 1 进程 2 





图 4-22 ”将 shell 文 件 头 读 入 缓冲 块 
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获取 shell 文 件 的 文件 头 
ER 
进程 0 进程 1 进程 2 


图 4-23 获取 文件 头 


对 文件 头 的 信息 进行 检测 ， 以 此 进一步 确定 
shell 文 件 的 内 容 是 人 否 人 符合 载 入 的 规定 。 代 码 如 下 : 





/代码 路 径 : fs/exec.c: 
int do_execve (unsigned long * eip,long tmp,char * filename, 


char ** argv,char ** envp ) 


ee 


if (! G&1) &&/ 如 果 用 户 没 有 权限 执行 该 程序 ， 则 退出 shell 的 


加 载 工 作 


! ( Cinode->i_mode&0111) & &suser ) ) ) { 
retval=-ENOEXEC; 

goto exec_etror2; 

} 


/通过 i 贡 点 ， 确 定 shell 文 件 所 在 设备 的 设备 号 及 其 文件 头 的 块 号 


(Ci_zone[0]) ， 获 取 文 件 头 


cil 


if (! (bh=bread (inode->i_dev,inode->i_zone[0]) ) ) { 
retval=-EACCES; 


goto exec_etror2; 


} 


ex=* ( (struct exec *) bh->b_ data) ; 从 绥 冲 块 中 得 到 文件 头 的 信 


1/ 检测 文件 涉 ， 得 知 shell 文 件 并 非 脚 本 文件 ， 所 以 里面 的 内 容 不 执 


if C (bh->b_data[O|==#") & & (bh->b_data[1]=='! ') && (C! 


sh_bang) ) { 
brelse (bh) ; 


/通过 文件 头 中 的 信息 ， 检 测 shel 文 件 的 内 容 是 否 符合 执行 规定 





if (N_MAGIC (ex) ! =ZMAGIC|lex.a_trsizellex.a_drsizel| 
ex.a_textt+ex.a_datat+ex.a_bss > 0x3000000]| 


inode->i_size<ex.a_texttex.a_datatex.a_syms+N_TXTOFF (ex) ) 


retval=-ENOEXEC; 

goto exec_etror2; 

} 

/如 果 文 件 头 大 小 不 等 于 1024B， 程 序 也 不 能 执行 
if (N_TXTOFF (ex) ! =BLOCK_SIZE) { 


printk ("%s: N TXTOFF! =BLOCK_SIZE.See a.out.h.", 
filename) ; 


retval=-ENOEXEC; 
goto exec_etror2; 


} 


if C! sh_bang) { 

p=copy_strings (envc,envp,page,p, 0) ; 
p=copy_strings (argc,argv,page,p, 0) ; 
if (C! p) { 

retval=-ENOMEM; 

goto exec_etror2; 


} 





检测 文件 头 属 性 的 情景 如 图 4-24 所 示 。 


经 检测 shell 文 件 的 文件 头 属 性 得 知 ，shell 文 件 
中 的 程序 具备 执行 条 件 。 
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图 _ 
4-24 检测 文件 头 属性 


4.3.3 ”为 shell 程 序 的 执行 做 准备 


1. 加 载 参数 和 环境 变量 








设置 参数 和 环境 变量 的 管理 指针 表 page， 并 统 
计 参 数 和 环境 变量 个 数 ， 最 终 将 它们 复制 并 映射 到 
进程 2 的 栈 空间 中 。 





执行 代码 如 下 : 


/代码 路 径 : fs/exec.c: 

int do_execve (unsigned long * eip,long tmp,char * filename, 
char ** argv,char ** envp ) 

{ 

struct m_inode * inode; 


struct buffer_head * bh; 


环境 


struct exec ex; 

unsigned long page[MAX_ARG_PAGES]; 
int l,argc,envc; 

int e_uid,e_gid; 

int retval; 

int sh_bang=0; 


unsigned long p=PAGE_SIZE * MAX_ARG_ PAGES-4; /设置 参数 或 
变量 在 进程 空间 的 初始 偏 移 指针 


for (i=0; i<MAX ARG PAGES; i++) /*clear page-table*/ 
page[ij=0; /将 参数 和 环境 变量 的 页 面 指针 管理 表 清 零 
argc=count (argv) ; /统计 参数 个 数 

envc=count (envp) ; /统计 环境 变量 个 数 


ee 


if C! sh_bang) { 


二 
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p=copy_strings (envc,envp,page,p, 0) ; /将 环境 变 


p=copy_strings (argc,argv,page,p» 0) ; // 将 参数 复制 到 进程 空间 
iE 
retval=-ENOMEM:; 


goto exec_error2; 


/在 进程 的 新 栈 空 间 中 创建 参数 和 环境 变量 指针 管理 表 
p= (unsigned long) create_tables ( (char *) p,argc,envc) ; 








加 载 参数 和 环境 变量 的 情景 如 图 4-25 一 图 4-28 
所 示 。 
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Al 4-25 将 参数 和 环境 变量 的 载体 清 0 
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图 4-26 统计 参数 和 环境 变量 个 数 
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图 4-27 复制 参数 和 环境 变量 
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图 4-28 重新 设置 各 段 信息 
2. 调 整 进程 2 的 管理 结构 


进程 2 有 了 上 自己 对 应 的 程序 shell， 因 此 要 对 目 
里 task_struct 进 行 调整 以 适应 此 变化 。 比 如 ， 原 来 
与 其 父 进程 〈 进 程 1) 共享 的 文件 、 内 存 页 面 ， 现 
在 要 解除 关系 ， 要 根据 shell 程 序 自身 情况 ， 量 身 定 
做 LDT， 并 设置 代码 段 、 数 据 段 、 栈 段 等 控制 变 


三 | 


一 一 一 


里 o 





代码 如 下 : 


/代码 路 径 : fs/exec.c: 
int do_execve (unsigned long * eip,long tmp,char * filename, 
char ** argv,char ** envp ) 


{ 


if C! sh bang) { 

p=copy_strings (envc,envp,page,p, 0) ; 
p=copy_strings (argc,argv,page,p, 0) ; 
if (! p) { 

retval=-ENOMEM; 

goto exec_etror2; 


} 


/*OK,This is the point of no return*/ 








if (current->executable) //Ar WHEE GAZA HT VAY BY A BE 
Cexecutable i 21% FE FF ATE SCE) 


iput (current->executable) ; 


current->executable=inode; /此 时 肯定 没有 ， 所 以 用 shell 程 序 文件 
的 i 节点 设置 executable 


for (i=0; i<32; i++) 


current-> sigaction[i].sa_handler=NULL; /将 进程 2 的 信号 管理 结构 
全 部 清 NULL 


for (i=0; i<NR_OPEN; i++) 


if ( Ccurrent->close_on exec>>i) &1) //close_on exec 所 标识 的 
打开 的 文件 ， 现 在 都 要 关闭 


sys _close (i) ; 
current->close_on_exec=0; // 并 将 close_on_exec 所 有 位 清 零 
// 解 除 进 程 2 与 进程 1 共享 的 页 面 关 系 


free _page_tables (get base (current->1dt[1]) , 
get_limit (Ox0f) ) ; 


free _page_tables (get_base (current->ldt[2]) , 
get_limit (0x17) ) ; 


if Clast_task_used_math==current ) 
last _task_used_math=NULL; 
current->used_math=0; /将 进程 2 的 数学 协 处 理 器 的 使 用 标志 清 零 


pt+=change_ldt (ex.a_text,page) -MAX_ARG PAGES * 
PAGE_SIZE; /重新 设置 进程 2 的 局 部 描述 符 表 


p= (unsigned long) create_tables ( (char *) p,argc,envc) ; 
current- > brk=ex.a_bss+ 
Ccurrent- >end_data=ex.a_data+ 


Ccurrent- > end_code=ex.a_text ) ) ; 


current- > start_stack=p & Oxfffff000; 

current- > euid=e_uid; 

current- > egid=e_gid; 

i=ex.a_textt+ex.a_data; 

while (i& Oxfff) 

put _fs_ byte (0, (char*) (i++) ) ; 

/设置 进程 代码 段 尾 字段 end_code、 进 程 数 据 段 尾 字 段 end_data、 进 
程 堆 结尾 字段 brk、 栈 底 位 置 字段 start_stack、 有 效用 户 ID euid 和 有 效 组 
ID egid， 最 后 ， 再 将 主 内 存 中 BSS 段 的 一 页 面 数据 全 部 清 零 

eip[0]=ex.a_entry; /*eip,magic happens: -) */ 

eip[3]=p; /*stack pointer*/ 


return 0; 








调整 进程 2 的 task_struct 的 情景 如 下 图 4-29 一 图 
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4-31 释放 代码 段 与 数据 段 所 占 页 面 
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A] 4-33 调整 进程 2task_struct 中 的 信息 
3. 为 执行 shell 调 整 EIP 和 ESP 


对 sys_execve 软 中 断 压 栈 的 值 进行 设置 ， 用 


shel] 程 序 的 起 始 地 址 值 设置 EFIP， 用 进程 2 新 的 栈 顶 
地 址 值 设 置 ESP。 这 样 ， 软 中 断 iret 返 回 后 ， 进 程 2 
将 从 shell 程 序 开 始 执行 。 代 码 如 下 : 


/代码 路 径 : fs/exec.c: 
int do_execve (unsigned long * eip,long tmp,char * filename, 


char ** argv,char ** envp ) 


eip[O]=ex.a_entry; /设置 进程 2 开始 执行 的 EIP 
eip[3]=p; /设置 进程 2 的 栈 顶 指针 ESP 
return 0; 


do_execve () 函数 执行 完毕 后 ，Sys_execve 便 


会 中 断 返 回 ， 去 执行 shell 程 序 。 调 整 EIP 和 ESP 的 情 
景 如 图 4-34 所 示 。 
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图 4-34 调整 EIP 和 ESP 
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4.3.4 ”执行 shel 程 序 


1. 执 行 shell 引 导 加 载 第 一 页 程序 





shell 程 序 开始 执行 后 ， 其 线性 地 址 空间 对 应 的 
程序 内 容 并 未 加 载 ， 也 就 不 存在 相应 的 页 面 ， 因 此 
就 会 产生 一 个 “页 异常 ”中 断 。 此 中 断 会 进一步 调 
用 “ 缺 页 中 断 ” 处 理 程序 来 分 配 该 页 面 ， 并 加 载 一 页 
shell 程 序 。 执 行 代码 如 下 : 








/代码 路 径 : mm/page.s: 
_page_fault: // 页 异常 处 理沙 数 入 口 
xchgl %eax, (%esp) 

pushl %ecx 

pushl %edx 


push %ds 


push %es 

push %fs 

movl $0x10, %edx 
mov %dx, %ds 
mov %dx, %es 
mov %dx, %fs 
movl %cr2, %edx 
pushl %edx 

pushl %eax 

test] $1, %eax 
jne 1f 


call _do_no_page...... /调用 人 缺 页 中 断 处 理 函 数 














产生 缺 页 中 断 的 情景 如 图 4-35 所 示 。 


do_no_page〈) 函数 开始 执行 后 ， 先 确定 缺 页 


的 原因 。 假 如 是 由 于 需要 加 载 程序 才 缺 页 ， 会 答 试 
与 其 他 进程 共享 shell (显然 此 前 没有 进程 加 载 过 
shell, WERF) ， 于 是 申请 一 个 新 的 页 面 ， 并 调 
用 bread_page〈) Rž, MEMA ERR (4 
KB、 一 页 ) shell 程 序 内 容 ， 载 入 内 存 页 面 。 有 具体 执 
行 代码 如 下 : 


ii 0x9FFFF OxFFFFF 0x3FFFFF OQxSFFFFF OxFFFFFF 


本 | 


Fee 


do no page | 


| 产生 缺 页 中 断 到 页 异常 处 至 函数 中 执行 
i 可 中 断 等 待 状态 l 可 中 断 等 待 状态 i 就 绪 态 


t 
当前 进程 


图 4-35 Pe Ae oR eT 


/代码 路 径 : mm/memory.c: 


void do_no_page (unsigned long error_code,unsigned long address ) 


TERS int nr[4]; 

unsigned long tmp; 

unsigned long page; 

int block,i; 

address & =Oxfffff000; 
tmp=address-current- > start_code; 


if (C! current->executable||tmp>=current->end_data) {/ 如 果 不 是 
加 载 程序 而 是 其 他 原因 导致 缺 页 


get_empty_page (address) ; /比如 说 压 栈 没 地 方 了 ， 那 么 直接 申 
ta A ey A T 





retum; /然后 直接 返回 
}/ 显 然 ， 此 时 不 是 这 种 情况 ， 确 实 需要 加 载 程序 


if (share_page (tmp) ) / 答 试 能 不 能 和 其 他 进程 共享 程序 ， 这 样 
就 省 得 加 载 了 ， 显 然 也 不 可 能 《哪个 进程 也 没 加 载 过 shell) 


return; 


if C! (page=get_free_page () ) ) /为 shell 程 序 申 请 一 页 新 的 内 存 
oom () ; 

/*remember that 1 block is used for header*/ 
block=1+tmp/BLOCK_SIZE; 

for (i=0; i<4; block++, i++) 

nr[iJ=bmap (current->executable,block) ; 


bread _page (page,current->executable->i_dev,nr) ; // 读 取 4 个 逻辑 
块 (1 页 ) 的 shell 程 序 内 容 进 内 存 页 面 


/在 增加 了 一 页 内 存 后 ， 该 页 内 存 的 部 分 可 能 会 超过 进程 的 end_data 
位 置 


/以 下 是 对 物理 页 面 超 出 部 分 进行 处 理 
i=tmp+4096-current- > end_data; 
tmp=page+4096; 

while (i-->0) { 

tmp--; 

* Cchar *) tmp=0; 

} 


if (put_page (page,address) ) 


retum; 
free_page (page) ; 
oom () ; 


} 





申请 空闲 页 面 的 情景 如 图 4-36 所 示 。 


0x9FFFF OxFFFFF 0x3FFFFF 0x5FFFFF OxFFFFFF 
| 
= I 
f i E -a 
Aee ga a |i 
一 个 空闲 页 面 
es TT TE RO 
进程 0 进程 进程 2 


A 4-36 申请 空闲 页 面 


载 入 Shell 程 序 的 情景 如 图 4-37 所 示 。 


0209990 0x9FFFF OxFFFFF 0x3FFFFF 0x5FFFFF OxFFFFFF 
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shell 程 序 部 分 载 看。 
AMPH Bee, 


[p e ee eee eo 
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图 4-37 载 入 shel 程 序 


对 载 入 内 容 进行 检测 的 情景 如 图 4-38 所 示 。 


| | | | (a) 
i | 
aie pe 
经 检测 ， 显 然 无 须 请 零 
进程 状态 


进程 0 进程 1 进程 2 


图 438 检测 载 入 内 容 





2. 有 映射 加 载 页 的 物理 地 址 与 线性 地 址 


载 入 一 页 的 Shell 程 序 后 ， 内 核 会 将 该 页 内 容 映 
射 到 shell 进 程 的 线性 地 址 空间 内 ， 建 立 页 目录 表 
页 表 -页 面 的 三 级 映射 管理 关系 。 具 体 执 行 代 码 如 
F: 


/代码 路 径 : mm/memory.c: 


void do_no_page (unsigned long error_code,unsigned long address ) 


/代码 路 径 :， mm/memory.c: 


unsigned long put_page (unsigned long page,unsigned long address) 
{ 

unsigned long tmp, *page_table; 

/*NOTE! This uses the fact that_pg_dir=0*/ 

if (page<LOW_MEM||page>=HIGH_MEMORY ) 

printk ("Trying to put page%p at%p\n", page,address) ; 

if (mem_map[ (page-LOW_MEM) >>12]! =1) 

printk ("mem_ map disagrees with%p at%p\n", page,address) ; 


page _table= (unsigned long *) ( (address> >20) &Oxffc) ; //it 
算 address 在 页 目录 表 中 对 应 的 表 项 











if ( (*page_table) &1) /如 果 该 页 目录 项 已 经 有 对 应 的 页 表 ， 驶 
获取 该 页 表 的 地 址 


page _table= (unsigned long *) (Oxfffff000&*page table) ; 


else{// 如 果 还 没有 页 表 ， 就 申请 一 个 页 表 





if C! (tmp=get_free_page © ) ) /这 里 申请 的 页 面 用 来 承载 页 表 


aH JA 
return 0; 


*page_table=tmp|7; 


page _table= (unsigned long *) tmp; 
} 


page _table[ (address> >12) &Ox3ff]=page|7; /页 面 和 页 表 建 立 关 
系 ， 最 终 完成 映射 


/*no need for invalidate*/ 
return page; 


} 





映射 的 情景 如 图 4-39 所 示 。 





: 线性 地 址 和 物理 地 址 进行 对 应 


128 MB 192 MB 4GB-1 


a sa 线性 地 址 空间 


图 4-39 映射 加 载 页 的 物理 地 址 与 线性 地 址 


进程 0 进程 1 进程 2 


图 4-39 (È) 


44 ASL 


4.4.1 创建 update 进 程 


shell 程 序 开 始 执行 后 ， 要 读 取 标 准 输入 设备 文 
件 上 的 信息 ， 即 task_struct 中 filp[20] 第 一 项 所 对 应 
文件 的 信息 。 本 章 4.3.1 节 中 已 经 介绍 到 ， 进 程 2， 

即 shell 进 程 刚 开始 执行 ， 就 用 rc 文件 替换 了 标准 输 
入 设备 文件 ty0， 因 此 ，shell 程 序 执行 后 读 取 的 是 rc 
文件 上 的 信息 。 





读 取 rc 文件 信息 的 情景 如 图 4-40 所 示 。 


a 0x9FFFF OxFFFFF 0x3FFFFF 0xSFFFFF 


OxFFFFFF 
sas) 





Ea 
HE“ /etc/re” MAF RA LEP 


进程 0 进程 1 进程 2(shell 进 程 ) 
可 中 上 等 竺 状态 | mestra | wae 


图 440 读 取 rc 文件 信息 


shell 从 "etcrc" 脚 本 文件 中 读 取 了 一 些 命令 ， 其 
中 主要 包括 以 下 两 条 命令 : 





echo"/dev/hd1/" > /etc/mtab//1-"/dev/hd1/"1% 7.2.74 5 A /etc/mtab X 
件 中 


ee 


根据 /etc/update 这 条 命令 ，shell 先 创建 一 个 新 
进程 。 这 个 新 进程 的 进程 号 是 3(shell 进 程 的 进程 
号 是 2， 依 次 累加 ， 所 以 它 的 进程 号 就 是 3) 。 它 在 
task[64] 中 的 “项 号 ”也 是 3。 我 们 在 后 面 称 之 
为 "update 进程 ?>。 创 建 完 毕 后 ， 加 载 update 程 序 ， 并 
最 终 将 执行 权 转 交 给 update 进 程 ， 由 它 去 执行 。 这 
一 创建 、 加 载 、 切 换 的 过 程 ， 与 本 章 4.2 节 中 进程 1 
创建 进程 2、 切 换 到 进程 2 执行 以 及 4.3 节 加 载 shell 程 
序 的 过 程 大 体 一 致 。 








创建 update 进 程 并 载 入 其 部 分 程序 的 情景 如 图 
4-41 所 示 。 


ani" OxOFFFF OxFFFFF Ox3FFFFF OxSFFFFF 





[ | 
' E 
task[64]| wa? 
ll EM 
whe 进程 的 位 置 
EL a ee ae ae ee 
| 进程 0 进程 1 进程 2(shell 进 程 ) update Fe | 
可 中 断 等 待 状态 i 可 中 断 等 待 状态 | 就 结 态 | TF 
当前 进程 


update 进 程 有 一 项 很 重要 的 任务 : 将 缓冲 区 中 


的 数据 同步 到 外 设 〈 软 盘 、 硬 盘 等 ) 上 。 由 于 主机 


与 外 设 的 数据 交换 速度 远 低 于 主机 内 部 的 数据 处 理 
速度 ， 因 此 ， 当 内 核 需 要 往外 设 上 写 数据 的 时 候 ， 
为 了 提高 系统 的 整体 执行 效率 ， 并 不 把 数据 直接 写 


入 外 设 上 ， 而 是 先 写 入 缓冲 区 ， 之 后 ， 根 据 实际 情 
况 ， 再 将 数据 从 组 冲 区 同步 到 外 设 。 


每 隔 一 段 时 间 ，update 进 程 束 会 被 唤醒 ， 把 数 
据 往外 设 上 同步 一 次 ， 之 后 这 个 进程 会 被 挂 起 ， 即 
被 设 置 为 可 中 断 等 竺 状态 ， 等 待 着 下 一 次 被 唤醒 后 
继续 执行 ， 如 此 周而复始 。 





update 进 程 执 行 后 ， 并 没有 同步 任务 ， 于 是 议 
进程 锌 挂 起 ， 系 统 进行 进程 调度 ， 最 终 切换 到 shell 
进程 继续 执行 。 








切换 到 shell 的 情景 如 图 4-42 所 示 。 


0x9FFFF OxFFFFF 0x3FFFFF 0x5FFFFF 


“bell 


| 进程 0 进程 进程 2(shell 进 程 ) update 进 各 | 
! | mires | mememe | axe | armena 


t 
当前 进程 被 挂 起 


图 4-42 进程 状态 变化 


AA2 ”切换 到 shell 进 程 执行 


4.4.1“ 节 中 介绍 到 ，shell 进 程 处 理 了 rc 文件 中 
的 第 一 条 命令 ， 创 建 了 update 进 程 。 现 在 处 理 第 二 
Rint, Eecho"/dew/hd1/">/etc/mtab, 
将 "dewhd1/" 这 一 字符 串 写 入 虚拟 盘 中 /etcmtab 文 
件 ， 执 行 完 毕 后 ，shell 程 序 会 继续 循环 调用 
read () 水 数 读 取 rc 文件 上 的 内 容 。read O 函数 对 
应 的 系统 调用 函数 是 sys_read。 代 人 码 如 下 : 


/代码 路 径 : fs/read_write.c: 


int sys_read (unsigned int fd,char * buf,int count) 


if (inode->i_pipe) / 读 取 管道 文件 


return (file->f_mode&1) ?read_pipe (inode,buf,count) : -EIO; 
if (S_ISCHR (inode->i_mode) ) / 读 取 字符 设备 文件 


return rw_char (READ, inode->i_zone[0], buf,count, &file-> 
f_pos) ; 


if (S_ISBLK (inode->i_mode) ) // 读 取 块 设备 文件 
return block_read (inode->i zone[0], &file->f_pos,buf,count) ; 


if (S_ISDIR Cinode->i_mode) ||S_ISREG (inode->i mode) ) {// 
读 取 普通 文件 


if (count+file->f_pos>inode->i_size ) 
count=inode- > i_size-file- >f_pos; 

if Ccount<=0) 

return 0; 


return file_read (inode,file,buf,count) ; 


printk (" (Read) inode->i_mode=%06o\n\r";, inode->i_mode) ; 


retum-EINVAL; 





由 于 "Vetc/re" 文 件 是 普通 文件 ， 读 取 结 来 后 ， 
返回 值 应 该 是 -ERROR (文件 读 取 的 具体 操作 步 又 
将 在 文件 操作 一 章 中 详细 介绍 ) 。 这 个 返回 值 将 导 
致 shell 进 程 退出 。 退 出 将 执行 exit〈) 函数 ， 对 应 
的 系统 调用 函数 为 sys_exit， 执 行 代码 如 下 : 


/代码 路 径 : kernel/exit.c: 

int sys_exit (int error_code ) 

{ 

return do_exit ( Cerror_code& Oxff) <<8) ; 


} 


进入 do_exit © 函数 后 ， 开 始 为 shell 的 退出 做 
善后 工作 ， 执 行 代码 如 下 : 


/代码 路 径 : kernel/exit.c: 


int do_exit (long code) 
{ 
int i; 


free _page_tables (get_base (current->lIdt[1]) ， 
get_limit (OxOf) ) ; /释放 shel 进 程 代码 段 和 数据 段 


free _page_tables (get_base (current->ldt[2]) ， 
get_limit (0x17) ) ; W 所 占据 的 内 存 页 面 





for (i=0; i<NR_TASKS; i++) /检测 shell 进 程 是 否 有 子 进程 
if (task[i] & & task[i]->father==current->pid) { 


/得 知 update 进 程 为 其 子 进 程 ， 因 此 在 shell 进 程 推出 前 ， 将 update 进 
程 的 父 进程 


/设置 为 进程 1 
task[i]- >father=1; 


if (task[i]->>state==TASK ZOMBIE) /如 果子 进程 为 僵 死 状态 ， 就 
要 向 进程 1 发 送 终止 信号 


/*assumption task[1]is always init*/ 
(void) send_sig (SIGCHLD,task[1], 1) ; 
} 


for (i=0; i<NR_OPEN; i++) // 以 下 为 解除 shell 进 程 与 其 他 进程 、 


文件 、 终 端 等 的 关系 
if (current->filp[i]) 
sys close (i) ; 
iput (current->pwd) ; 
current- >pwd=NULL; 
iput Ccurrent->root) ; 
current- >root=NULL; 
iput (current->executable) ; 
current- > executable=NULL; 
if (current->leader & & current->tty >=0) 
tty _table[current-> tty].pgrp=0; 
if (last_task_used_math==current ) 
last _task_used_math=NULL; 
if (current-> leader) 
kill session (©) ; 
current->state=TASK_ZOMBIE; /将 当前 进程 设置 为 僵 死 状态 


current- > exit_code=code; 


tell father (current->father) ; /给 进程 1 发 信号 ， 通 知 它 shell 进 程 
即将 推出 


schedule © ; /进程 切换 
return (-1) ; /*just to suppress warnings*/ 


} 





释放 页 面 的 情景 如 图 4-43 所 示 。 
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图 4-43 释放 页 面 


shell 进 程 与 其 他 进程 、 文 件 、 终 端 .………. 的 关系 
以 及 给 父 进程 发 送信 号 的 情景 如 图 4-44 所 示 。 


值得 注意 的 是 tell father () 和 schedule () K 
数 的 执行 。 


tell father ©) 疯 数 执行 后 ， 会 给 进程 1 发 送 
SIGCHLD 信 号 ， 通 知 进程 1， 有 子 进程 将 要 退出 ， 
执行 代码 如 下 : 


ere Ox9FFFF OxFFFFF OQx3FFFFF OQxSFFFFF OxFFFFFF 


De E 


we 
eoooouee 
PT 
DO 
AR S 
accesses? 


[shell 的 task_struct 所 在 页 面 


shell ijtask_struct iin 进程 1 的 task struct... 
n EE 进程 1 的 
task struct 
l 设 轩 与 文件 相关 的 字段 ma | 所 在 页 面 
信号 位 图 | 
给 进程 1 发 送 “ 子 
进程 退出 "信号 
LE LL Oe AR a SE AR, TE 
| 进程 0 进程 1 进程 2(shell 进 程 ) update 进 程 


| 可 中 晰 等 竺 次 态 | mensen | mx | armena 


t 
当前 进程 


图 4-44 给 父 进程 发 送信 和 号 


/代码 路 径 : kernel/exit.c: 


static void tell_father Cint pid) /通知 父 进程 ， 将 有 子 进 程 退 出 


int i; 

if (pid) 

for (i=0; i<NR_TASKS; i++) { 
if C! task[i]) 

continue; 

if (task[i]->pid! =pid) 

continue; 


task[i]->signal|= (1< < (SIGCHLD-1) ) ; /给 父 进程 发 送 
SIGCHLD 信 号 


return; 


/*if we don't find any fathers,we just release ourselves*/ 
/*This is not really OK.Must change it to make father 1*/ 


printk ("BAD BAD-no father found\n\r") ; 


release (current) ; 


} 





tell father © PRACT SCH a, H 
schedule O 函数 准备 进程 切换 。 此 次 schedule ©) 
水 数 中 对 信号 的 检测 ， 影 响 到 了 进程 切换 。 代 码 如 
下 : 





/代码 路 径 : kernel/sched.c: 

void schedule (void) 

{ 

int i,next,c; 

struct task_struct ** p; 

/*check alarm,wake up any interruptible tasks that have got a signal*/ 
for (p=&LAST TASK; p>&FIRST_TASK; --p) /遍历 所 有 进程 


if (*p) { 


if ( (*p) ->alarm& & (*p) ->alarm<jjiffies) { 
(*p) ->signall= (1<< (SIGALRM-1) ) ; 
(*p) ->alarm=0; 

} 


if ( ( (*p) ->signal& ~ (_BLOCKABLE& (*p) -> 
blocked) ) && 


(*p) ->state==TASK_INTERRUPTIBLE) /发 现 进程 1 接收 到 了 信 
号 并 且 处 于 可 中 断 等 待 状态 





(*p) ->state=TASK_RUNNING; /将 进程 1 设置 为 就 绪 态 


/*this is the scheduler proper: */ 
while (1) { 

=-1; 
next=0; 
i=NR_TASKS:; 
p=&task[NR_TASKS]; 
while (--i) { 


if (C! *--p) 


continue; 
if ( (*p) ->state==TASK_RUNNING& & (*p) ->counter>c) 
c= (*p) ->counter,next=i; /发 现 只 有 进程 1 是 就 绪 态 
} 
if (c) break; 
for (p=&LAST_TASK; p>&FIRST_TASK; --p) 
if (*p) 
(*p) ->counter= ( (*p) ->counter>>1) + 
(*p) ->priority; 
} 
switch to (next) ; /决定 切换 到 进程 1 去 执行 


} 





本 章 4.2 节 中 介绍 到 ， 进 程 1 是 执行 
sys_waitpid () KHT, MH J schedule O 函数 ， 
切换 到 进程 2 的 ， 所 以 ， 切 换 到 进程 1 后 ， 会 继续 执 


fT schedule © 函数 ， 并 最 终 回 到 sys_waitpid ©) 也 
数 执行 《有 基体 过 程 参看 第 3 章 3.2 人 T) 。 具 体 代码 如 
F: 





/代码 路 径 : kernel/exit.c: 


int sys_waitpid (pid_t pid,unsigned long * stat_addr,int options) /wait 
对 应 sys_waitpid 系 统 调用 


{ 

int flag,code; 

struct task_struct ** p; 

verify _area (stat_addr, 4) ; 

repeat: 

flag=0; 

for (p=&LAST_TASK; p> &FIRST_TASK; --p) { 
if (! *p||*p==current ) 

continue; 


if ( (*p) ->father! =current-> pid) 


continue; 


ee 


if (flag) { 

if (options & WNOHANG ) 

return 0; 

current- > state=TASK_INTERRUPTIBLE; 

schedule ©) ; /执行 完毕 后 ， 继 续 回 到 sys_waitpid 函 数 中 


if (! (Ccurrent->signal&=~ (1<< (SIGCHLD-1) ) ) ) /检测 
到 SIGCHLD 信 号 ， 确 定 有 子 进 程 要 退出 





goto repeat; /重新 处 理子 进程 退出 问题 
else 


return-EINTR; 


return-ECHILD; 





值得 注意 的 是 ， 此 时 进程 1 接收 到 的 SIGCHLD 
信号 ， 就 是 前 面 tell_father 发 送 的 信号 。 
sys_waitpid () 函数 的 主体 程序 继续 执行 ， 技 术 路 
线 在 4.2 节 中 已 经 介绍 。 此 次 执行 的 区 别 在 于 ， 确 实 
有 子 进程 退出 ， 需 要 处 理 ， 执 行 代码 如 下 : 


/代码 路 径 : kernel/exit.c: 


int sys_waitpid (pid_t pid,unsigned long * stat_addr,int options ) 


repeat: 

flag=0; 

for (p=&LAST_TASK; p> &FIRST_TASK; --p) { 
if ©! *p||*p==current ) 

continue; 


if ( (*p) ->father! =current-> pid) 


continue; 


ee 


ee 


case TASK_ZOMBIE: /即将 退出 的 shell 为 僵 死 状态 
current->cutime+= (*p) ->utime; 
current->cstime+= (*p) ->stime; 

flag= (*p) ->pid; /记录 进程 2 的 进程 号 ，"2" 
code= (*p) ->exit_code; 

release (*p) ; /释放 shelltask_struct 所 在 的 页 面 

put _fs long (code,stat_addr) ; 


return flag; /返回 shell 进 程 号 ，"2" 


ee 


释放 shell 的 task_struct 所 在 页 面 的 情景 如 图 4-45 
所 示 。 
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图 4-45 释放 shell 的 task_struct 所 在 页 面 


sys_waitpid〈) 函数 执行 完毕 后 ， 会 回 到 


wait © 函数 ， 最 终 返 回 init © 函数 中 ， 进 程 1 继 
续 执 行 ， 代 码 如 下 : 





/代码 路 径 : init/main.c: 


void init (void) 


if (pid>0) 


while (pid! =wait (&i) ) /此 时 执行 结果 为 2! =2 为 假 ， 跳 出 循 
环 ， 去 下 面 while (1) 中 执行 


/*nothing*/; 

while (1) {V/ 重 局 shell 进 程 

if ( (pid=fork © ) <0) { 
printf ("Fork failed in init\r\n") ; 
continue; 

} 


if C! pid) { 


close (0) ; close (1) ; close (2) ; 

setsid ©) ; 

(void) open ("/dev/ttyO", O_RDWR, 0) ; 
(void) dup (0) ; 

(void) dup (0) ; 

_exit Cexecve ("/bin/sh", argv,envp) ) ; 

} 

while (1) 

if (pid==wait (&i) ) 

break; 

printf ("\n\rchild%d died with code%04x\n\r", pid,i) ; 
sync () ; 

} 


_exit (0) ; /*NOTE! _exit,not exit () */ 





值得 注意 的 是 ， 本 章 4.2 节 中 已 经 介绍 到 ， 创 建 


完 进程 2 后 ，pid 值 为 2， 而 sys_waitpid 返 回 值 fag 也 
为 2， 即 wait () 函数 返回 值 为 2，while 中 条 件 为 
假 ， 跳 出 循环 。 


4.4.3 重建 shell 


进程 1 继续 执行 ， 准 备 重 建 shell， 执 行 代码 如 





/代码 路 径 : init/main.c: 


void init (void) 


if (pid>0) 


while (pid! =wait (&i) ) /此 时 执行 结果 为 2! =2 为 假 ， 跳 出 循 
环 ， 去 下 面 while (1) 中 执行 


/*nothing*/; 
while (1) {/ 重 启 shell 进 程 
if © (pid=fork © ) <0) {/ 进 程 1 创建 进程 4， 即 重建 shell 进 程 


printf ("Fork failed in init\r\n") ; 


continue; 
} 
if C! pid) { 


close (0) ; close (1) ; close (2) ; /新 的 shell 进 程 关 闭 所 有 打开 
的 文件 


setsid O) ; /创建 新 的 会 话 


(void) open ("/dev/ttyO", O_RDWR, 0) ; /重新 打开 标准 输入 
设备 文件 


(void) dup (0) ; /重新 打开 标准 输出 设备 文件 

(void) dup (0) ; /重新 打开 标准 错误 输出 设备 文件 
_exit Cexecve ("/bin/sh", argv,envp) ) ; // 加 载 shell 进 程 
} 
while (1) 
if (pid==wait (&i) ) /进程 1 等 待 子 进程 退出 
break; 
printf ("\n\rchild%d died with code%04x\n\r", pid,i) ; 
sync () ; 


} 


_exit (0) ; /*NOTE! _exit,not exit () */ 


重建 shell 进 程 的 情景 如 图 4-46 所 示 。 
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Al 4-46 重建 shell 进 程 


这 部 分 代码 的 执行 路 线 ， 本 章 前 面 的 内 容 中 者 
己 经 介绍 。 值 得 注意 的 区 别 是 ，shell 进 程 的 进程 号 


由 last_pid 累 加 产生 ， 因 此 为 4， 但 它 占 用 的 task[64] 
的 项 ， 是 前 面 已 退出 的 shell 进 程 的 项 ， 因 此 项 号 仍 
然 是 2。 另 外 ， 此 次 shel] 重 新 打开 标准 输入 设备 文 

件 (tty0 文 件 ) ， 而 非 rc 文 件 ， 这 使 得 shell 开 始 执行 
后 ， 不 再 退出 。 执 行 代码 如 下 : 








/代码 路 径 : fs/read_write.c: 


int sys_read Cunsigned int fd,char * buf,int count ) 


if (inode->i_pipe) 


return (file->f_mode&1) ?read_pipe (inode,buf,count) : -EIO; 


if (S_ISCHR (inode->i_mode) ) // 此 次 shell 读 取 的 tty0 文 件 为 字符 
设备 文件 

return rw_char (READ, inode->i_zone[0], buf,count, &file-> 
f_pos) ; 


if (S_ISBLK (inode->i mode) ) 


return block_read (inode->i_zone[0], &file->f_pos,buf,count) ; 


if (S_ISDIR Cinode->i_mode) ||S_ISREG (inode->i mode) ) {// 
上 次 shell 读 取 的 rc 文件 为 普通 文件 


if (count+file->f pos>inode->i size) 

count=inode- > i_size-file- >f_pos; 

if (count<=0) 

return 0; 

return file_read (inode,file,buf,count) ; 

} 

printk (" (Read) inode->i_mode=%06o\n\r";, inode->i_mode) ; 
return-EINVAL; 


} 





在 进入 rw_char O 函数 后 ，shell 进 程 将 被 设置 
为 可 中 断 等 竺 状态 ， 这 样 所 有 的 进程 全 部 都 处 于 可 
中 断 等 待 状态 ， 再 次 切换 到 进程 0 去 执行 ， 系 统 实 
MER. 








念 速 以 后 ， 操 作 系 统 用 户 将 通过 shell 进 程 提供 
的 平台 与 计算 机 进行 交互 。shell 进 程 处 理 用 户 指令 
的 工作 原理 如 下 : 用 户 通过 键盘 输入 信息 ， 存 储 在 
指定 的 字符 缓冲 队列 上 。 该 缓冲 队列 上 的 内 容 ， 就 
是 tty0 文 件 的 内 容 。shell 进 程 会 不 断 读 取 缓冲 队列 
上 的 数据 信息 。 如 果 用 户 没 有 下 达 指 令 ， 绥 冲 队列 
中 就 不 会 有 数据 ，shell 进 程 将 会 被 设置 为 可 中 断 等 
待 状态 ， 即 被 挂 起 。 如 果 用 户 通过 键盘 下 达 指 令 ， 
将 产生 键盘 中 断 ， 中 断 服 务 程序 会 将 字符 信息 存储 
在 缓冲 队列 上 ， 并 给 shell 进 程 发 信号 ， 信 号 将 导致 
shell 进 程 被 设置 为 就 绪 状 态 ， 即 被 唤醒 ， 唤 醒 后 的 
shell 继 续 从 绥 冲 队列 中 读 取 数据 信息 并 处 理 ， 完 毕 
后 ，shell 进 程 将 再 次 被 挂 起 ， 等 待 下 一 次 键盘 中 断 
被 唤醒 。 








45 ”本章 小 结 


本 章 详细 讲解 了 进程 1 创建 进程 >、 加 载 shell 程 
序 、 创 建 update 进 程 、 重 建 shell、 实 现 系统 食 速 的 
全 过 程 。 与 前 面 讲 解 激活 进程 0、 进 程 0 重建 进程 1 
有 较 大 不 同 的 地 方 是 ， 进 程 0 和 进程 1 的 代码 都 是 操 
作 系 统 设 计 者 直接 写 到 内 核 代码 中 的 ， 进 程 2 则 是 
从 硬盘 中 加 载 的 执行 代码 ， 而 且 shell 进 程 是 对 操作 
系统 非常 重要 的 用 户 界面 进程 。 所 以 ， 本 章 内 容 涉 
及 的 打开 终端 设备 文件 以 及 大 量 的 文件 操作 ， 为 后 
续 学 习 文 件 操作 打下 了 基础 。 








第 5 草 ”文件 操作 


本 章 将 通过 几 个 实例 程序 详细 讲解 操作 系统 的 
文件 操作 。 


5.1 ”安装 文件 系统 


在 3.3.3 市 中 ， 操 作 系 统 成 功 加 载 了 根 文件 系 
统 ， 使 之 能 够 以 文件 的 形式 与 根 设备 进 行 数据 交 
互 。 安 装 文件 系统 就 是 在 根 文件 系统 的 基础 上 ， 把 
便 盘 中 的 文件 系统 安 疼 在 根 文 件 系统 上 ， 使 操作 系 
统 也 具备 以 文件 的 形式 与 便 盘 进行 数据 交互 的 能 
pa 








安装 文件 系统 分 为 三 步 : 





1) 将 硬盘 上 的 超级 块 恋 取 出 来 ， 并 载 入 系统 
中 的 super_block[8] 中 。 





2) 将 虚拟 盘 上 指定 的 证 点 读 出 ， 并 将 此 i 贡 点 
加 载 到 系统 中 的 inode_table[32] 中 。 


3) 将 硬盘 上 的 超级 块 挂 接 到 inode_table[32] 中 


指定 的 i 节点 上 。 


人 硬盘 的 文件 系统 安装 成 功 后 ， 整 体 结构 关系 如 
图 5-1 所 示 。 


根 i 节 点 。 mnt 文件 目录 i 节 点 


Mg inode table[32] 


硬盘 的 超级 块 


[|] spe toc 
OD 


F ag 


图 5-1 硬盘 文件 系统 安装 成 功 后 的 示意 图 





在 shell 下 输入 “mount/dev/hd1/mnt”* 命 令 来 安装 
文件 系统 。 此 命令 包括 三 个 参数 ， 分 别 
Hcc » H> 


是 “mount”、“devhd1> 和 “mnt”。 “mount” 1X7 fir 


令 的 名 字 ， 表 明 这 个 命令 是 要 安装 文件 系 





统 ;“/dev/hd1” 和 “/mnt” 是 两 个 路 径 名 。 整 条 命令 的 
意思 是 : 将 设备 “hd1” 的 文件 系统 挂 载 在 “mnt” 日 录 
文件 下 。shell 进 程 接 到 该 命令 后 ， 会 创建 一 个 新 进 
程 ， 新 进程 调用 mount O 函数 ， 并 最 终 映 射 到 
sys_mount () RAMH AŽ BREAN LE 
作 就 是 由 sys_mount O 函数 完成 的 。 


5.1.1 获取 外 设 的 超级 块 


小 巾 士 


使 盘 是 可 以 分 区 的 ， 每 个 分 区 都 可 以 算 作 一 个 
设备 。 本 章 和 以 后 的 章节 中 ， 默 认 整 个 硬盘 就 是 一 
个 分 区 ， 因 此 hd1 融 代表 了 硬盘 这 个 设备 。 





sys_mount O 函数 先 调 用 namei〈() 函数 ， 根 
据 /devwhd1 路 径 名 ， 获 得 hdl 设 备 文件 的 i 节 点 ， 再 从 





i 太 反 中 获得 设备 写 ， 最 终 根据 设备 写 ， 读 取 设 备 的 


超级 块 。 


执行 代码 如 下 : 





/代码 路 径 : fs/super.c: 

int sys_mount (char * dev_name,char * dir name,int rw_flag ) 
{ 

struct m_inode * dev_i, *dir i; 

struct super_block * sb; 

int dev; 

if C! (dev i=namei (dev_name) ) ) /获取 hd1 设 备 文件 i 节 点 
return-ENOENT:; 

dev=dev_i->i_zone[0]; /通过 i 节点 ， 获 取 设 备 号 

if (! S ISBLK (dev_i->i_mode) ) { 

// 如 果 hd1 文 件 不 是 块 设备 文件 


iput (devi) ; W/ 束 释放 挥 它 的 i 节点 


块 


return-EPERM; 


iput (devi) ; // 释 放 hd1 设 备 文件 i 市 点 

if C! (dir i=namei (dir name) ) ) 

return-ENOENT; 

if (dir i->i count! =1||dir_i->i_num==ROOT_INO) { 
iput (diri) ; 


return-EBUSY; 


if (C! S ISDIR (dir_i->i_mode) ) { 
iput (diri) ; 


return-EPERM; 


if C! (sb=read_super (dev) ) ) {/ 通 过 设备 号 ， 读 取 设 备 的 超级 


iput (diri) ; 


return-EBUSY; 


if (sb->s_imount) { 
iput (diri) ; 


return-EBUSY; 


if (dir_i->i_mount) { 
iput (diri) ; 


return-EPERM; 


sb->s_imount=dir_i; 
dir _i->i_mount=1; 
dir _i->i_dirt=1; /*NOTE! we don’t iput (dir i) */ 


return 0; /*we do that in umount*/ 








其 中 namei O 函数 获取 i 节点 的 过 程 与 4.1.1 中 





介绍 的 i 节点 获取 过 程 大 体 一 至。read_super() PK 
数 读 取 设备 超级 块 大 体 分 为 三 步 : 第 一 ， 在 
super_block 中 选 定 一 个 空闲 项 来 存储 超级 块 ; 第 
二 ， 将 超级 块 载 入 该 项 ; 第 三 ， 根 据 超 级 块 中 提供 
的 信息 ， 载 入 ji 点 位 图 和 逻辑 块 位 图 。 另 外 ， 在 操 
作 超级 块 表 项 前 要 将 其 加 锁 ， 以 免 被 其 他 操作 干 
扰 ， 等 操作 完毕 后 再 解锁 。 此 过 程 的 执行 代码 如 
Pi 


/代码 路 径 : fs/super.c: 

static struct super_block * read_super (int dev) 
{ 

struct super_block * s; 

struct buffer_head * bh; 

int i,block; 


if (! dev) 


return NULL; 
check _disk_change (dev) ; 


if (s=get_super (dev) ) /如 果 hd1 设 备 的 超级 块 已 经 载 入 ， 则 直接 
返回 


return sS; 


for (s=0+super_block; s++) {// 在 super_block 中 为 hd1 超 级 块 寻找 空 
WAE. 


if (s>=NR_SUPER+super_block ) 

return NULL; 

if (C! s->s_dev) /确定 super_block 第 二 项 为 空闲 位 置 
break; 

} 


s->s_dev=dev; /以 下 的 S->.. 是 对 该 超级 块 项 中 与 内 存 操作 相关 部 
分 进行 设置 


s- >s_isup=NULL; 
s->s_imount=NULL; 
s->s_time=0; 


s->s_rd_only=0; 


s->s_dirt=0; 


lock _super (s) ; /对 该 超级 块 项 加 锁 保 护 ， 以 免 设 置 过 程 中 被 干 
Hè 





// 根 据 hd1l 设 备 写 和 块 写 《1， 代 表 设 备 上 第 二 块 ， 即 超级 块 所 在 逻 
ERG) ， 读 取 超 级 块 


if C! (bh=bread (dev, 1) ) >) { 
s- >s_dev=0; 

free _super (s) ; 

return NULL; 


} 


* ( (struct d_super_block *) s) =// 将 读 取 的 超级 块 信息 载 入 超级 块 
项 中 ， 即 第 二 项 中 


* ( (struct d_super_block *) bh->b_data) ; 
brelse (bh) ; 


if (s->s_magic! =SUPER_MAGIC) {/ 检 测 超级 块 魔 数 ， 确 定 设 
备 的 文件 系统 是 否 可 用 


s->s_dev=0; 
free _super (s) ; 


return NULL; 


} 


// 以 下 是 载 入 i 节点 位 图 和 超级 块 位 图 ， 并 与 超级 块 中 s_imap 和 
s_zmap 建 并 对 应 关系 


for (i=0; i<I MAP_ SLOTS; i++) 
s->s_imap[iJ=NULL; 

for (i=0; i<Z_MAP SLOTS; i++) 
s->s_zmapli]=NULL; 

block=2; 

for (i=0; i<s->s_imap_blocks; i++) 
if (s->s_imap[i]=bread (dev,block) ) 
block++; 

else 

break; 

for (i=0; i<s->s_zmap_blocks; i++) 
if (s->s_zmap[i]=bread (dev,block) ) 
block++; 


else 


break; 


/检查 从 设备 上 读 取 的 逻辑 块 数 block 是 否 与 其 应 有 的 数量 2+s-> 
s_imap_blocks+s- 之 s_zmap_blocks 相 一 致 


if (block! =2+s->s_imap_blocks+s->s_zmap_blocks) { 
for (i=0; i<I MAP_ SLOTS; i++) 

brelse (s->s_imap[i]) ; 

for (i=0; i<Z_MAP_ SLOTS; i++) 

brelse (s->s_zmap[i]) ; 

s- >s_dev=0; 

free _super (s) ; 


return NULL; 


s- >s_imap[0]->b_data[0]|=1; 
s- >s_zmap[0]->b_data[0]|=1; 
free_super (s) ; // 超 级 块 设置 完毕 ， 解 除 对 超级 块 项 的 保护 


return s; 





5.1.2 ”确定 根 文 件 系统 的 挂 接 点 


再 次 调用 namei〈) 函数 ， 根 据 /mnt 路 径 名 ， 
mot RM, RD, ari AA 
性 ， 判 断 该 让 点 是 个 可 以 用 来 挂 接 文 件 系统 ， 执 行 
代码 如 下 : 





/代码 路 径 : fs/super.c: 

int sys_mount (char * dev_name,char * dir name,int rw_flag ) 

{ 

struct m_inode * dev_i, *dir i; 

struct super_block * sb; 

int dev; 

if C! (dev_i=namei (dev_name) ) ) /获取 hd1 设 备 文件 i 节 点 
return-ENOENT:; 


dev=dev_i->i_zone[0]; // 通 过 节点， 获取 设备 号 


is 


if C! S_ISBLK (dev_i->i_mode) ) {// 如 果 hd1 文 件 不 是 块 设备 文 


iput (devi) ; W/ 束 释放 挥 它 的 i 节点 
return-EPERM:; 
} 


iput (devi) ; // 释 放 hd1 设 备 文件 i 市 点 





if C! (dir i=namei (dir_name) ) ) /获取 mnt 目 录 文 件 i 节 点 


return-ENOENT; 





ifem ARR HEAR, MEDER EA RERE 


if (dir i->i count! =1||dir_i->i_num==ROOT_INO) { 

iput (diri) ; 

return-EBUSY; 

} 

if (! S_ISDIR (dir_i->i_mode) ) {/ 确 定 mnt 确 实 是 目录 文件 
iput (dir_i) ; 


return-EPERM; 


ER 


if (C! (sb=read_super (dev) ) ) {/ 通 过 设备 号 ， 获 取 设 备 的 超级 


iput (diri) ; 


returnn-EBUSY; 


if (sb->s_imount) { 
iput (diri) ; 


return-EBUSY; 


if (dir i->i mount) { 
iput (diri) ; 


return-EPERM; 


sb->s_imount=dir_i; 
dir _i->i_mount=1; 
dir _i->i_dirt=1; /*“NOTE! we don’t iput (diri) */ 


return 0; /*we do that in umount*/ 


ZA} WT BARE» mont A FER SCF RRR 


5.1.3 ”将 超级 块 与 根 文件 系统 挂 接 


挂 接 前 要 确保 挂 接点 和 被 挂 接点 都 是 二 


津 *? 的 ， 即 hd1 设 备 的 文件 系统 没有 被 安装 过 ， 而 且 
mnt 目 录 文 件 上 也 没有 安 猴 过 其 他 文件 系统 。 这 两 
扩 人 确定 后 ， 束 将 两 者 挂 接 ， 执 行 代码 如 下 : 


块 


/代码 路 径 : fs/super.c: 


int sys_mount (char * dev_name,char * dir name,int rw_flag ) 


if (C! (sb=read_super (dev) ) ) {/ 通 过 设备 号 ， 获 取 设 备 的 超级 


iput (diri) ; 
return-EBUSY; 


} 


if (sb->s_imount) {/ 确 保 hd1 设 备 的 文件 系统 没有 被 安装 在 其 他 地 


iput (dir_i) ; 
return-EBUSY; 
} 


if (dir_i->i_mount) {V/ 确 保 mnt 目 录 文 件 i 节 点 上 没有 安装 过 其 他 文 
件 系统 


iput (diri) ; 
return-EPERM; 
} 


sb->s_imount=dir_i; // 将 超级 块 中 s imount 与 根 文件 系统 中 dir i 挂 
接 





dir_i->i_mount=1; /给 dir_ i 做 标记 ， 表 明 该 i 节点 上 已 经 挂 接 了 文 
件 系 统 





dir _i->i_dirt=1; // 给 dir i 做 标记 ， 表 明 i 节 点 上 的 信息 已 经 被 更 改 
/*NOTE! we don'tiput (dir i) */ 


return 0; /*we do that in umount*/ 





本 章 第 2 全 8 他， 将 通过 3 个 文件 操作 实例 ， 讲 
解 文件 系统 的 工作 原理 。 


实例 1: 用 户 进程 打开 一 个 硬盘 上 已 存在 的 文 
件 ， 并 读 取 文件 的 内 容 。 


实例 2: 用 户 进程 在 便 盘 上 新 建 一 个 文件 ， 并 
将 内 容 写 入 这 个 文件 。 


实例 3: 关 财 此 文件 ， 并 将 其 从 硬盘 中 删除 。 


实例 1; 用 户 进程 打开 一 个 在 硬盘 上 已 存在 的 
文件 ， 并 读 取 文 件 的 内 容 。 


本 实例 分 为 两 部 分 : 打开 文件 和 读 取 文件 ， 进 
程 的 代码 如 下 : 


void main ( ) 


{ 
/打开 文件 
char buffer[12000]; 


int fd=open ("/mnt/user/user1/user2/hello.txt", O_RDWR, 
0644) ) ; 


/ 读 取 文件 
int size=read (fd,buffer,sizeof (buffer) ) ; 


return; 


5.2 ”打开 文件 





打开 文件 是 拟人 化 的 表述 ， 在 操作 系统 中 就 是 
确定 进程 操作 哪个 文件 。 这 个 确定 过 程 由 两 件 事 构 
成 : 


1) 将 用 户 进 程 task_struct 中 的 *filp[20] 与 内 核 
中 的 file_table[64] 进 行 挂 接 。 


2) 将 用 户 进 程 需 要 打开 的 文件 对 应 的 i 节点 在 
file table[64] 中 进行 登记 。 





操作 系统 根据 用 户 进程 的 需求 来 操作 文件 ， 央 
核 通过 *filp[20] 掌 控 一 个 进程 可 以 打开 的 文件 ， 降 
可 以 打开 多 个 不 同 的 文件 ， 也 可 以 同一 个 文件 多 次 
打开 ， 每 打开 一 次 文件 〈 不 论 是 否 是 同一 个 文 








YE) ， 就 要 在 *filp[20] 中 占用 一 个 项 《比如 hello.txt 
文件 被 一 个 用 户 进程 打开 两 次 ， 束 要 在 *filp[20] 中 
占用 两 项 ) 记录 指针 ， 所 以 ， 一 个 进程 可 以 同时 打 
开 的 文件 次 数 不 能 超过 20 次 。 


操作 系统 中 fle_table[64] 是 管理 所 有 进程 打开 
文件 的 数据 结构 ， 不 但 记录 了 不 同 的 进程 打开 不 同 
的 文件 ， 也 记录 了 不 同 的 进程 打开 同一 个 文件 ， 甚 
至 记录 了 同一 个 进程 多 次 打开 同一 个 文件 。 与 
*filp[20] 关 似 ， 只 要 打开 一 次 文件 ， 就 要 在 
file_table[64] 中 记录 。 











文件 的 节点 是 记载 文件 属性 的 最 关键 的 数据 
结构 。 在 操作 系统 中 i 节点 和 文件 是 一 一 对 应 的 ， 找 
到 i 节 点 就 能 唯一 确定 文件 。 内 核 通 过 
inode_table[32] 掌 控 正 在 使 用 的 文件 市 点 数 ， 每 个 











被 使 用 的 文件 i 市 后 部 要 记录 在 其 中 。 


打开 文件 的 本 质 就 是 要 建 六 *filp[20]、 
file table[64]、inode table[32] 三 者 之 间 的 关系 ， 如 
图 5-2 所 示 。 


这 个 过 程 分 为 三 个 步骤 进行 : 


第 一 步 ， 将 用 户 进程 task_struct 中 的 *filp[20] 与 
内 核 中 的 fle_table[64] 进 行 挂 接 。 








Bw, UHP EE WE 
% “/mnt/user/user1/user2/hello.txt” HRR, FREI 
hello.txt 文 件 的 i 节点 。 





第 三 步 ， 将 hello.txt 对 应 的 i 节点 在 file_table[64] 
中 进行 登记 。 





具体 的 操作 是 在 进程 中 调用 open() 函数 实现 
打开 文件 ， 该 函数 最 终 映 射 到 Sys_open O 系统 调 
用 函数 执行 。 映 射 过 程 以 及 sys_open O 函数 的 基 
本 执行 情况 已 经 在 本 书 4.4.1 节 中 介绍 。 本 节 在 此 基 
础 上 ， 详 细 讲 解 sys_open() 函数 的 执行 细节 并 分 
析 sys_open O 的 设计 思路 。 





file_table[64] 


ae 
AE 


filp[20] filp[20] filp[20] filp[20] 
图 5-2 打开 文件 的 关系 示意 图 


5.2.1 将 进程 的 *filp[20] 与 fle_table[64] 挂 


接 


fEsys_open O 函数 中 ， 实 现 *filp[20] 与 
file_table[64] 进 行 挂 接任 务 的 代码 如 下 : </p> 


/代码 路 径 : include/linux/fs.h: 

#define NR_OPEN 20// 进 程 可 以 打开 文件 的 最 大 数 
#define NR_FILE 64// 操 作 系 统 可 以 打开 文件 的 最 大 数 
struct file{ 

unsigned short f_mode; /文件 操作 模式 

unsigned short f_flags; /文件 打开 、 控 制 标志 


unsigned short f_count; /文件 句柄 数 





struct m_inode * f_inode; // 指 同文 件 对 应 的 i 节点 
off tf pos; // 文 件 位 置 ( 读 写 偏 移 值 ) 


bs 


/代码 路 径 : include/linux/sched.h: 
struct file * filp[NR_OPEN]; /管理 进程 使 用 文件 的 指针 数组 
/代码 路 径 : fs/fle_table.c: 


struct file file_table[NR_FILE]; /记录 操作 系统 已 经 打开 文件 的 管控 


/代码 路 径 : fs/open.c: 

int sys_open (const char * filename,int flag,int mode ) 
{ 

struct m_inode * inode; 

struct file * f; 

int i,fd; 


mode & =0777 & ~current->umask; /设置 该 文件 模式 为 用 户 许可 使 
用 模式 《将 在 5.4 新 建文 件 一 节 中 讲解 ) 


for (fd=0; fd<NR_OPEN; fd++) /从 当前 进程 *filp[20] 中 寻找 空 
闲 项 


if C! current->filp[fd]) 
break; 


if (fd >=NR_OPEN) /检查 *filp[20] 结 构 是 否 已 经 超出 使 用 极限 


return-EINVAL; 


current->close_on_exec&=~ (1<<fd) ; /将 该 文件 句柄 执行 时 
关闭 标志 设置 为 0 〈 将 在 第 6 章 中 讲解 ) 


f=0+file_table; 
for (i=0; i<NR_FILE; i++, f++) V 在 file_table[64] 中 寻找 空闲 项 
if ©! f->f count) break: 


if G>=NR_FILE) /检查 file table[64] 结 构 是 否 已 经 超出 使 用 极限 
(极限 为 承载 64 个 文件 表 项 ) 


return-EINVAL ; 


(current->filp[fd]=f) ->f_count++; /将 当前 进程 的 *filp[20] 与 
file_table[64] 对 应 项 挂 接 ， 并 增加 文件 句柄 计数 


ee 





要 想 实 现 挂 接任 务 ， 就 要 分 别 在 *filp[20]、 
file_table[64] 中 找到 空 亲 项 ， 找 到 后 ， 将 当前 进程 
的 *filp[20] 与 file_table[64] 的 对 应 项 挂 接 ， 并 增加 
file_table[64] 中 对 应 项 的 文件 句柄 计数 《文件 句柄 


男 外 需要 注意 的 是 ， 多 个 进程 对 文件 的 使 用 情 
Due ttte ZA, AAS CIT, ERI 
*filp[20]、file_table[64] 的 空 采 项 时 不 一 定 都 能 找 得 
到 ， 也 就 是 说， 超出 了 两 个 数据 结构 的 使 用 极限 ， 
遇 到 这 类 情况 内 核 会 给 出 错误 信息 。 在 文件 系统 中 
先 检查 、 后 使 用 的 设计 风格 是 贯穿 始终 有 的 。 








5.2.2 ”获取 文件 i 节点 


本 而 通 过 分 析 路 径 
¥Y,“/mnt/user/user1/user2/hello.txt”, FR #l|hello.txt3¢ 
件 的 i 节 点 。 


此 次 与 本 书 4.1.1 闻 中 所 介绍 的 查找 文件 i 市 点 
的 区 别 在 于 ，hello.txt 文 件 存储 于 便 检 上 ， 低 找 过 
程 将 会 从 根 i 节点 开始 ， 通 过 虚拟 盘 找 到 硬盘 上 的 文 
件 。 查 找 的 技术 路 线 如 图 5-3 所 示 。 


从 图 5-3 中 可 以 看 出 ， 路 径 名 的 解析 过 程 有 明 
显 的 同 构 性 ， 技 术 路 线 古 : 


寻找 i 市 反 一 通过 i 节 友 找到 目录 文件 


通过 目录 文件 找到 目录 项 -通过 目录 项 找到 目 


RMP AS > 


通过 目录 文件 找到 目录 项 ~ 通过 目录 项 找到 目 
RMP RS > 


循环 往复 ， 最 终 找到 hello.txt 文 件 。 




















图 5-3 文件 路 径 解析 示意 图 





LIRR H KLT A 





IRU TE AEN ee M H En 5-4 TA « 


open_manei ph AAT, 最 终 
获取 hello.txt 有 目标 文 件 i 节 点 


ee 调用 find_entry 函 数 , 根据 校 梢 区 点 
文件 i 节 点 , 即 丢 梢 i 节 点 目录 名 信息 , 获取 目录 文件 中 的 目录 项 


t di f WiizetrAt, 祖 据 目录 项 中 
We 提供 的 i 节 点 号 和 枝 梢 ;节点 中 


提供 的 设备 号 获取 目标 文件 i 节点 


c 从 根 i 节 点 开始 避 历 


hello. txt 


调用 find_entry 函 数 , 根据 
目录 文件 i 节 点 和 目录 名 信息 ， 
获取 目录 文件 中 的 目录 项 


调用 iget 函 数 , 根据 目录 项 中 
提供 的 i 节 点 号 和 i 节 点 中 提供 的 
设备 号 , 获取 目录 文件 i 节点 





图 5-4 获取 i 节点 的 程序 调用 图 


获取 目录 文件 i 节 点 是 通过 调用 open_namei 






Q 


函数 实现 的 。 代 码 如 下 : 





/代码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode ) 


if ( Gi=open_namei (filename,flag,mode, &inode) ) <0) {/ 获 取 
hello.txt 文 件 i 节 点 





current->filp[fdj=NULL; // 如 果 没 有 获取 到 i 节点 ， 将 *filp[20] 申 请 
到 的 表 项 置 为 NULL 





f->f_count=0; // 如 果 没 有 获取 到 i 节点 ， 将 fle_table[64] 申 请 到 的 表 
项 引用 计数 置 0 


return i; 





进入 open_namei() 疯 数 后 ， 先 对 所 要 打开 的 


文件 按照 用 户 需求 设置 参数 flag、mode。 


执行 代码 如 下 : 





/代码 路 径 : include/fentLh: /八进制 形式 : 

#define O_ACCMODE 00003V 文 件 访问 模式 屏蔽 码 

#defne O_RDONLY 00V 只 读 方式 打开 文件 标志 

#defne O_WRONLY 01// 只 写 方式 打开 文件 标志 

#defne O_RDWR 02// 读 写 方式 打开 文件 标志 

#define O_CREAT 00100/*not fcntl*/// 创 建新 文件 标志 
#define O_EXCL 00200/*not fcntl*/// 进 程 独占 文件 标志 
#define O_NOCTTY 00400/*not fcntl*/// 不 分 配 控制 终端 标志 
#define O_TRUNC 01000/*not fcntl*/// 文 件 长 度 截 0 标志 
#define O_APPEND 02000V 文 件 指 针 置 末端 标志 


#define O_NONBLOCK 04000/*not fcntl*/// 非 阻塞 方式 打开 和 操作 
文件 标志 


#define O_NDELAY O_NONBLOCK 


ee 


/代码 路 径 : include/fentLh: /二 进 制 形 式 : (可 以 看 出 标志 的 设置 
有 明显 的 规律 ) 


#define O_ACCMODE 0000 0000 0000 0011 

#defne O_RDONLY 0000 0000 0000 0000 

#defne O_WRONLY 0000 0000 0000 0001 

#defne O_RDWR 0000 0000 0000 0010 

#define O_CREAT 0000 0000 0100 0000/*not fcntl*/ 
#define O_EXCL 0000 0000 1000 0000/*not fcntl*/ 
#define O_NOCTTY 0000 0001 0000 0000/*not fcntl*/ 
#define O_TRUNC 0000 0010 0000 0000/*not fcntl*/ 
#define O_APPEND 0000 0100 0000 0000 

#define O_NONBLOCK 0000 1000 0000 0000/*not fcntl*/ 


#define O_NDELAY O_NONBLOCK 


ee 


/代码 路 径 : fs/namei.c: 
int open_namei (const char * pathname,int fag,int mode, 


struct m_inode ** res_inode) //pathname 就 是 路 
径 /mntuseruserl/user2/hello.txt 的 指针 


{ 





const char * basename; /basename 记 录 目 录 项 名 字 前 面 % 的 地 址 
int inr,dev,namelen; /namelen 记 录 名 字 的 长 度 
struct m_inode * dir, *inode; 


struct buffer_head * bh; 





struct dir_entry * de; //de 用 来 指 同 目录 项 内 容 


if ( (flag&O_TRUNC) &&! (flag&O_ACCMODE) ) // 如 果 文 
件 为 只 读 文件 且 长 度 为 0 


flag|=O_WRONLY; /将 文件 设置 为 只 写 文件 
mode & =0777 & ~current- > umask; 
mode|=I_LREGULAR; /设置 该 文件 为 普通 文件 


if (! (dir=dir namei (pathname, &namelen, &basename) ) ) // 


分 析 路 径 、 获 取 枝 梢 iD at 


return-ENOENT; 


if ©! namelen) {/*special case: '/usr/‘etc*/ 

if (! (flag& CO_ACCMODE|O_CREAT|O_TRUNC) ) ) { 
*res_inode=dir; 

return 0; 

} 

iput (dir) ; 

return-EISDIR; 

} 


bh=find_entry ( &dir,basename,namelen, &de) ; // 通 过 枝 梢 i 节 
点 ， 找 到 目标 文件 的 目录 项 





设置 完毕 ， 调 用 dir namei O 子 数 分 析 用 户 给 
出 的 文件 路 径 名 ， 允 历 路 径 所 有 目录 文件 i 节 点 ， 目 
的 是 获取 最 后 一 个 目录 文件 i 节 点 《〈 校 梢 i 贡 点 ) 。 





Zt Adir_namei O) 函数 后 ， 调 用 获取 i 节点 的 
具体 工作 函数 get_dir O Kkt. RABU F: 








/代码 路 径 : fs/namei.c: 
static struct m_inode * dir namei (const char * pathname, 


int * namelen,const char ** name) /pathname 就 是 路 
4#/mnt/user/user1/user2/hello.txt 43 Et 


char c; 
const char * basename; 
struct m_inode * dir; 


if C! (dir=get_dir (pathname) ) ) // 分 析 路 径 、 获 取 i 节 点 的 执行 
函数 


return NULL; 
basename=pathname; 


while (c=get_fs_byte (pathname++) ) /遍历 结束 后 ，pathname 会 
指 问 字符 串 末 端的 /0' 


// 逐 个 遍历 "/mnt/user/user1l/user2/hello.txt" 字 符 串 ， 每 次 循环 都 将 一 


个 字符 复制 给 c 
if (c=="/) 


basename=pathname; /字符 串 遇 历 结束 后 ，basename 将 指向 最 后 一 
INN 
D" 





*namelen=pathname-basename-1; /计算 出 "hello.txt" 名 字 的 长 度 
*name=basename; /得 到 hello.txt 前 面 " 字 符 的 地 址 
return dir; 


} 





set_dir © 函数 获取 i 节点 的 内 容 ， 在 本 书 4.1.1 
节 中 初步 介绍 过 ， 获 取 工 作 是 通过 持续 不 断 地 “ 确 
定 目 录 项 、 通 过 目录 项 获取 i 节点 ”完成 的 。 














“确定 目录 项 ?对 应 的 函数 是 find_entry © ; 





“通过 目录 项 获取 i 节点 ”对 应 的 函数 古 


iget () 。 


这 里 详细 介绍 这 两 个 函数 的 执行 过 程 。 代 码 如 





/代码 路 径 : fs/namei.c: 

static struct m_inode * get_dir (const char * pathname ) 
{ 

char c; 

const char * thisname; 

struct m_inode * inode; 

struct buffer_head * bh; 

int namelen,inr,idev; 

struct dir_entry * de; 


if (C! current->root||! current->root->i_count) // 当 前 进程 的 根 i 节 


扩 不 存在 或 引用 计数 为 0 


panic ("No root inode") ; 


if (C! current->pwd||! current->pwd->i_count) /当前 进程 的 当前 
工作 目录 根 i 节 点 不 存在 或 引用 计数 为 0 





panic ("No cwd inode") ; 


// 些 处 识别 出 "/mnt/user/user1/user2/hello.txt" 这 个 路 径 的 第 一 个 字符 
Hai 
xe'/ 


if ( (c=get fs_byte (pathname) ) ==") { 
inode=current- > root; 

pathname++; 

else if Cc) 

inode=current- > pwd; 

else 

return NULL; /*empty name is bad*/ 
inode->i_count++; // 该 i 节点 的 引用 计数 也 随 之 加 1 
while (1)〉{// 循 环 以 下 过 程 ， 直 到 找到 枝 档 i 节点 为 止 
thisname=pathname; //thisname 会 首先 指 问 'm' 


if ©! S_ISDIR Cinode->i_mode ) ||! 
permission (inode,MAY_EXEC) ) { 


iput (inode) ; 


return NULL; 


/每 当 检 索 到 字符 串 中 的 /字符 ， 或 者 c 为 \0'， 循 环 都 会 跳出 


for (namelen=0; (c=get fs byte (pathname++) ) & & (c! 
=/) ; namelen++ ) 


/*nothing*/; /注意 这 个 分 号 
if (! c) 
return inode; 


if (! (bh=fnd_entry (&inode,thisname,namelen, &de) ) ) {// 通 
WARN TAA a, GRA RKN 








iput (inode) ; /如 果 在 目录 文件 中 没有 找到 指定 的 目录 项 ， 残 释 
放 该 目录 文件 的 i 节点 


return NULL; // 并 返回 NULL 


} 





inr=de-> inode; /从 目录 项 中 提取 ji 节点 号 
idev=inode->i_dev; W/ 从 i 节点 中 获取 设备 号 


brelse (bh) ; 





iput (inode) ; /路 径 中 校 梢 iD 点 之 前 的 各 个 目录 文件 ii 点， 使 用 
完毕 后 就 立即 释放 以 免 浪 费 inode_table 中 的 空间 


if C! (inode=iget (idev,inr) ) ) // 获 取 i 节 点 


return NULL; 


find_entry O 函数 的 任务 是 : 先 通 过 目录 文件 
i 节 点 ， 确 定 目录 文件 中 有 多 少 目录 项 ， 之 后 从 目录 
文件 对 应 的 第 一 个 逻辑 块 开 始 ， 不 断 将 该 文件 的 远 
辑 块 从 外 设 读 入 缓冲 区 ， 并 从 中 得 找 指定 目录 项 ， 
二 到 找到 指定 的 目录 项 为 止 。 











代码 如 下 : 


/代码 路 径 : include/linux/fs.h: 

#define BLOCK_SIZE 1024 

/代码 路 径 : fs/namei.c: 

static struct buffer_head * find_entry (struct m_inode ** dir, 
const char * name,int namelen,struct dir_entry ** res_dir) 


/获取 mnt 目 录 项 


int entries; 

int block,i; 

struct buffer_head * bh; 
struct dir_entry * de; 
struct super_block * sb; 
#ifdef NO_TRUNCATE 


if (namelen>NAME LEN) /在 定义 了 “NO_TRUNCATE， 即 不 能 
截断 ”的 前 提 下 ， 如 果 文 件 名 超过 14 字 节 ， 束 返回 NULL 


return NULL; 

#else 

if (namelen>NAME_LEN) /和 否则 就 强行 截断 
namelen=NAME LEN; 

#endif 

entries= (*dir) ->i_size/ (sizeof (struct dir_entry) ) ; 

/根据 i 节 点 中 ji_size 文 件 长 度 信 息 ， 计 算 目 录 文 件 中 有 多 少 个 目录 项 


*res dir=NULL; 


if (C! namelen) /检查 文件 名 长 度 是 否 为 0 





return NULL; 
/*check for'..', as we might have to do some"magic" for it*/ 


if (namelen==2 & & get_fs_byte (name) ==''& & 
get_fs_ byte (name+1) ==".') { 





one /如 果 目 录 项 是 ..， 在 这 里 处 理 


if C! (block= (*dir) ->i_zone[0]) ) /确定 目录 文件 第 一 个 逻辑 
块 的 块 号 不 能 是 0 


return NULL; 


if (! (bh=bread ( (*dir) ->i_dev,block) ) ) // 将 目录 项 所 在 逻 
辑 块 读 入 指定 缓冲 块 


return NULL; 
i=0; 


de= (struct dir_entry *) bh->b_data; //iEdefs lal ZYF Ek H Heh 





while (i<entries) {/ 在 所 有 目录 项 中 查找 mnt 目 录 项 
if © (char *) de>=BLOCK_SIZE+bh->b_data) { 


BO FR PB BHR EBL Re, EBA REI TSE NY A er 


brelse (bh) ; 

bh=NULL; 

/就 将 目录 文件 的 下 一 个 逻辑 块 载 入 缓冲 块 ， 继 续 找 mnt 目 录 项 
if (! (block=bmap (*dir,i/DIR_LENTRIES_PER BLOCK) ) || 
! (bh=bread ( (*dir) ->i_dev,block) ) ) { 
i+=DIR_ENTRIES_PER BLOCK; 

continue; 

} 

de= (struct dir_entry *) bh->b_data; 

} 

if (match (namelen,name,de) ) {/ 目 录 项 匹配 确认 
*res_dir=de; // 如 果 找 到 了 mnt， 就 交 给 *res_dir 指 针 


return bh; 


brelse (bh) ; 


return NULL; /整个 目录 文件 全 都 检测 完了 ， 确 实 没 有 mnt 目 录 
项 ， 返 回 NULL 


} 





iget O 函数 的 任务 是 : 根据 目录 项 中 提供 的 i 
节点 号 、 设 备 号 获取 i 节点 。 具 体 的 获取 方式 是 先 
在 inode_table[32] 中 搜索 ， 如 果 指 定 的 i 节点 已 在 其 
中 ， 就 直接 使 用 ， 如 果 找 不 到 ， 再 加 载 。 这 样 做 的 
理由 十 x =R e A TIT a 同 二 个 广 作 六 
可 能 被 多 个 进程 同时 引用 ， 现 在 需要 获取 的 文件 i 节 
点 有 可 能 已 经 被 其 他 进程 载 入 ， 如 果 重 复 载 入 证 
点 ， 不 仅 容易 引起 混乱 ， 而 且 浪费 时 间 。 



































此 外 ， 如 果 发 现 某 文件 i 贡 点 上 安装 了 文件 系 
统 ， 就 直接 把 该 文件 系统 的 根 i 节 点 载 入 ， 这 个 根 i 
节点 将 成 为 在 男 一 个 文件 系统 中 继续 查找 文件 的 起 





mnt 目 录 文 件 的 i 节操 是 第 一 个 要 获取 的 i 节 所 ， 
通过 5.1 节 的 介绍 得 知 ，mnt 目 录 文件 i 节点 上 安装 了 
文件 系统 ， 这 就 需要 把 该 文件 系统 的 根 i 节 点 载 入 i 


TAK. 





执行 代码 如 下 : 





/代码 路 径 : fs/namei.c: 


struct m_inode * iget (int dev,int nr) /获取 mnt 目 录 文 件 的 i 节 点 ， 


dev 和 mr 分 别 为 指定 证 点 的 设备 号 和 i 节 点 号 





{ 

struct m_inode * inode, *empty; 
if C! dev) /如 果 设 备 号 为 空 
panic ("iget with dev==0") ; 


empty=get_empty_inode () ; // 从 inode_table[32] 中 ， 获 取 空 内 的 i 节 
点 表 项 


inode=inode_table; 





//}\inode_table[32]71, tei Ae AOA ST, ABR hil 
mnt H SCF Beat 





while (inode<NR_INODEt+inode table) { 





/对 比 设 备 号 和 i 节 点 号 是 否 和 指定 的 i 节 点 相 匹 配 





if (inode->i_dev! =dev||inode->i_num! =nr) { 
inode++; 
continue; 


} 





/即便 找到 了 ，mant 目 录 文 件 i 节 点 此 时 有 可 能 正在 被 使 用 ， 所 以 要 
等 待 其 解锁 


wait _on_inode (inode) ; 


if (inode->i_dev! =devllinode->i_num! =nr) {/ 此 时 该 i 节 点 有 可 
能 已 经 





inode=inode_table; /被 释放 了 ， 因 此 要 重新 过 历 inode_table[32]， 
如 未 被 删除 


continue; /就 可 以 用 了 ， 此 时 的 情况 是 mnt 没 有 被 删除 


inode->i_count++; 


if Cinode->i_mount) {/ 如 果 该 i 节 点 上 安装 了 文件 系统 〈 本 案例 中 
mnt 目 录 文 件 i 节 点 束 是 这 种 情况 ) 





int i; 


for (i=0; i<NR_SUPER; i++) /寻找 安装 的 文件 系统 所 在 外 设 
(硬盘 ) ， 即 hd1 设 备 的 超级 块 


if (super_block[i].s_imount==inode ) 


break; 





if G>=NR_SUPER) LUi 节 点 上 并 没有 安装 文件 系统 
printk ("Mounted inode hasn't got sb\n") ; 

if empty) 

iput (empty) ; 


return inode; 


iput Cinode) ; 


dev=super_block[i].s_dev; /通过 hdl 设 备 超级 块 得 到 设备 号 





nr=ROOT_INO; W/W/ 确 定 外 设 根 i 节点 写 ，ROOT_INO 为 1 


inode=inode_table; /准备 再 次 过 历 外 设 〈 人 硬盘 ) 根 i 节 点 ， 以 确定 
HE Ath OA ey 


continue; 


if (empty) 

iput (empty) ; 

return inode; 

} 

if (C! empty) Winode_table[32] 中 没有 空闲 项 了 
return (NULL) ; 

/寻找 hd1 设 备 根 i 节 点 的 结果 是 : WARE, Are BAZ A 
inode=empty; 

inode- > i_dev=dev; 

inode->i_num=nr; 

read _inode (inode) ; // 读 取 i 节 点 


return inode; // 由 于 mnt 的 i 节点 安装 了 文件 系统 ， 此 次 获取 的 是 hd1 
设备 根 i 节点 





准备 工作 完成 后 ， 通 过 调用 read_inode 也 数 ， 
MAb CLEA EER 上 读 取 i 节点 ， 载 入 
inode table[32] 中 。 





执行 代码 如 下 : 





/代码 路 径 : fs/inode.c: 

static void read_inode (struct m_inode * inode) / 读 取 i 节 点 
{ 

struct super_block * sb; 

struct buffer_head * bh; 

int block; 


lock inode (inode) ; //Winode_table[32] F} ei MeN, LA 
免 被 干扰 





if C! (sb=get_super (inode->i_dev) ) ) /获取 i 节 点 所 在 设备 的 
超级 块 〈 已 经 加 载 ) 


panic ("trying to read inode without dev") ; 


block=2+sb->s_imap_blocks+sb->s_zmap_blocks+ 


(inode->i_num-1) /INODES PER BLOCK; /确定 i 节点 在 设备 上 
的 逻辑 块 号 


if C! (bh=bread (inode->i_dev,block) ) ) /将 i 贡 点 所 在 逻辑 块 
载 入 指定 绥 冲 块 


panic ("unable to read i-node block") ; 


* (struct d_inode *) inode=// 将 i 节点 载 入 inode_table[32] 表 的 指定 位 


( (struct d_inode *) bh->b_data) 
[ Cinode->i_num-1) %INODES_PER_BLOCK]; 
brelse (bh) ; 
unlock _inode (inode) ; // 表 项 操作 完毕 ， 解 锁 


} 





获取 到 硬盘 上 文件 系统 的 根 i 节 点 后 ， 
get_dir © 函数 将 不 断 地 调用 find_entry () 函数 、 
iget O 函数 ， 持 续 不 断 获 取 到 user、user1 目 录 文 
件 的 节点， 并 最 终 得 到 user2 目 录 文 件 的 i 节点 ( 枝 
Mit) 。 执 行 步 又 与 寻找 mnt 目 录 文 件 i 节 后 一 





BM; Kale, REA SIN RERA RR TP 
系统 ， 执 行路 径 会 有 所 不 同 。 


代码 如 下 : 





/代码 路 径 : fs/namei.c: 


struct m_inode * iget (int dev,int nr) /获取 后 续 目 录 文 件 的 i 节 点 ， 
dev 和 mr 分 别 为 指定 i 点 的 设备 号 和 ij 节点 号 





{ 

struct m_inode * inode, *empty; 

if C! dev) /如 果 设 备 号 为 空 ， 死 机 
panic ("iget with dev==0") ; 


empty=get_empty_inode () ; // 从 inode_table[32] 中 ， 获 取 空 内 的 i 节 
点 表 项 


inode=inode_table; 


while (inode<NR_INODEt+inode table) { 





/从 inode_table[32] 中 ， 检 测 指 定 的 i 节 点 是 个 己 经 加 载 过 了 ， 其 他 目 
录 文 件 节 后 从 未 加 载 过 





if (inode->i_dev! =dev||inode->i_num! =nr) { 
/对 比 的 最 终结 果 是 循环 跳出 
inode++; 


continue; 


if (C! empty) 


return (NULL) ; 





// 寻 找 其 他 目录 文件 i 市 点 的 结果 是 : KARA, PTE WAI 


inode=empty; 

inode- >i_dev=dev; 
inode->i_num=nr; 

read _inode (inode) ; / 读 取 ji 节点 


return inode; /不 断 地 查找 ， 依 次 返回 的 是 user、user1、user2 目 录 
文件 i 节点， 即 枝 梢 i 节点 





执行 完毕 ， 返 回 dir namei © AŽ, user? H 


录 文 件 的 节点 返回 。 


执行 代码 如 下 : 





/代码 路 径 : fs/namei.c: 
static struct m_inode * dir_namei (const char * pathname, 


int * namelen,const char ** name) /pathname 就 是 路 
4#/mnt/user/user1/user2/hello.txt hy #44 


char c; 

const char * basename; 

struct m_inode * dir; 

if C! (dir=get_dir (pathname) ) ) ARIT A ASAT BL 
return NULL; 


while (c=get_fs_byte (pathname++) ) /遍历 结束 后 ，pathname 会 
指 回 字 符 串 末端 的 V0/ 


// 逐 个 遍历 "/mnt/user/user1l/user2/hello.txt" 字 符 串 ， 每 次 循环 都 将 一 
个 字符 复制 给 c 


if (c=="/") 





basename=pathname; /字符 串 遇 历 结束 后 ，basename 将 指向 最 后 一 
个 rn 
[ra 


*namelen=pathname-basename-1;_ /计算 出 "hello.txt" 名 字 的 长 度 
*name=basename; /得 到 hello.txt 前 面 / 字 符 的 地 址 


return dir; 





最 后 返回 open_namei O 函数 中 ， 将 user2 目 录 
文件 的 i 节点 〈 梳 档 i 节点) 返回 并 保存 。 





/代码 路 径 : fs/namei.c: 
int open_namei (const char * pathname,int fag,int mode, 


struct m_inode ** res_inode ) 


if (! (dir=dir namei (pathname, &namelen, &basename) ) ) // 


WEI ap TER ES STR 点 
return-ENOENT; 


open_namei () PRAISED: 通过 不 断 分 析 路 
径 名 最 终 获 取 术 梢 i 点 已 经 完成 ， 下 面 将 通过 术 梢 
i 攻 点 ， 确 定 目标 文件 hello.txt 的 i 贡 点 。 





2. 获 取 目 标 文 件 i 节 点 





获取 hello.txt 目 标 文 件 i 节 点 与 上 一 小 节 中 获取 
枝 梢 i 节 点 的 内 容 基 本 一 致 ， 也 通过 调用 
find_entry © ~ iget () 函数 获取 目标 文件 i 节点 ， 
并 将 其 返回 。 


执行 代码 如 下 : 





/代码 路 径 : fs/namei.c: 
int open_namei (const char * pathname,int flag,int mode, 


struct m_inode ** res inode) 


if (! (dir=dir namei (pathname, &namelen, &basename) ) ) // 
通过 分 析 路 径 获得 校 梢 i 市 点 


return-ENOENT; 


if C! namelen) {V/ 如 果 目 标 文件 的 名 字 长 度 为 0 





if (! (flag& CO_ACCMODE|O_CREAT|O_TRUNC) ) ) {/ 此 处 
flag 检 查 参见 5.2.2 节 中 提供 的 flag 屏 菩 人 码 


*res inode=dir; 
return 0; 

} 

iput (dir) ; 


return-EISDIR; 





/通过 user2 目 录 文 件 i 节 点 ， 以 及 掌握 的 关于 hello.txt 的 情况 ， 将 
hello.txt 这 一 目录 项 载 入 缓冲 


/ 块 ，de 指 向 hello.txt 目 录 项 
bh=find_entry ( &dir,basename,namelen, &de) ; 


if C! bh) {/whello.txt 目 录 项 找到 了 ， 绥 冲 块 不 可 能 为 空 ， 计 中 此 时 
不 会 执行 


inr=de->inode; /得 到 i 节 点 号 
dev=dir->i_dev; /得 到 hdl 设 备 的 设备 号 


brelse (bh) ; 





iput (dir) ; /释放 user2 目录 文件 i 节 点 

if (flag&O_EXCL) /此 处 flag 检 查 参 见 5.2.2 节 中 提供 的 flag 屏 蔽 码 
return-EEXIST; 

if C! (inode=iget (dev,inr) ) ) /获取 hello.txt 这 个 文件 的 i 节 点 
retumn-EACCES; 


if ( CS_ISDIR Cinode->i_mode) & & (Cflag& 
O_ACCMODE) ) lw 此 处 flag 检 查 参 见 5.2.2 节 中 提供 的 flag 屏 蔽 和 码 


! permission (inode,ACC_MODE (flag) ) ) {/ 检 查 用 户 访问 该 文 
件 的 许可 权限 


iput (inode) ; 

return-EPERM; 

} 

inode- >i_atime=CURRENT_TIME; 

if (flag&O_TRUNC) /flag 检 查 参 见 5.2.2 节 中 提供 的 fag 屏 珊 码 
truncate (inode) ; 

*res_inode=inode; /将 i 节 点 传递 给 sys_open 

return 0; 


} 





现在 已 经 得 到 目标 文件 hello.txt 的 i 节 点， 下 面 


将 这 个 i 节 点 与 file table[64] 挂 接 。 


5.2.3 ”将 文件 i 节点 与 fe_table[64] 挂 接 


5.2.2 节 中 介绍 到 ，hello.txt 文 件 i 节 点 已 经 被 载 
入 inode_table[32] 中 。 现 在 要 将 该 节点 与 
file_table[64] 进 行 排 接 ， 目 的 是 使 fle_table[64] 通 过 
inode_table[32] 中 hello.txt 文 件 i 节 点 所 在 表 项 的 指 
针 ， 找 到 该 1 生 点 。 此 外 ， 操 作 系 统 还 对 hello.txt 文 
件 的 属性 、 引 用 计数 、 读 写 指针 偏 移 等 进行 了 设 
置 。 





代码 如 下 : 


/代码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode ) 





if (S_ISCHR (inode->i_mode) ) //hello.txt 文 件 不 是 字符 设备 文 
件 ， 不 会 执行 到 这 里 面 


if (MAJOR (Cinode->i_zone[0]) ==4) { 

if Ccurrent->leader& & current->tty<0) { 
current->tty=MINOR Cinode->i_zone[0]) ; 
tty _table[current->tty].pgrp=current- > pgrp; 
} 

else if (MAJOR (Cinode->i_zone[0]) ==5) 
if Ccurrent->tty<0) { 

iput (inode) ; 

current- > filp[fdJ=NULL; 

f->f_count=0; 


return-EPERM; 


/*Likewise with block-devices: check for floppy_change*/ 


if (S_ISBLK (inode->i_mode) ) //hello.txt 文 件 不 是 块 设备 文件 ， 
不 会 执行 到 这 里 面 


check _disk_change (inode->i_zone[0]) ; 


f->f_mode=inode->i_mode; /用 该 i 节点 属性 ， 设 置 文件 属性 
f->f_flags=flag; // 用 flag 参 数 ， 设 置 文 件 操作 方式 


f->f_count=1; // 将 文件 引用 计数 加 1 





f->f_inode=inode; // 文 件 与 节点 建立 关系 


f->f_pos=0; // 将 文件 读 写 指针 设置 为 0 





return (fd) ; // 把 文件 句柄 返回 用 户 空间 


} 


到 此 为 止 ，file_table[64] 中 的 挂 接点 ， 一 端 与 
当前 进程 的 *filp[20] 指 针 绑 定 ， 另 一 端 与 
inode_table[32] 中 hello.txt 文 件 的 i 节点 绑 定 。 绑 定 关 
系 建立 后 ， 操 作 系统 把 fd 返 给 用 户 进程 。 这 个 fd 是 
挂 接 点 在 fle_table[64] 中 的 偏 移 量 ， 即 “文件 句 
柄 ”。 进 程 此 后 只 要 把 这 个 fd 传递 给 操作 系统 ， 操 作 
系统 就 可 以 判断 出 进程 需要 操作 哪个 文件 ， 比 如 实 
例 1 中 的 








int size=read (fd,buffer,sizeof (buffer) ) ; 


这 行程 序 的 目的 是 要 读 取 hello.txt 文 件 中 的 内 
容 。 实 参 fq 就 是 hello.txt 文 件 的 “标签 ”>。 这 个 参数 传 
入 内 核 后 ， 系 统 就 可 以 根据 fd 找到 挂 接点 ， 并 进行 
操作 。 





关于 读 文 件 操 作 的 详细 情况 ， 将 在 下 一 节 中 介 


5.3” 读 文件 








读 文 件 就 是 从 用 户 进 程 打 开 的 文件 中 读 取 数 
据 ， 读 文件 由 read 函 数 完成 。 


5.3.1 确定 数据 块 在 外 设 中 的 位 置 


read () 水 数 最 终 映射 到 sys_read O 系统 调用 
图 数 去 执行 。 在 执行 主体 内 容 之 前 ， 先 对 此 次 操作 
的 可 行 性 进行 检查 ， 包 括 用 户 进 程 传递 的 文件 句 
柄 、 读 取 字 节 数 是 否 在 合理 范围 内 ， 用 户 进程 数据 
所 在 的 页 面 能 否 被 写 入 数据 ， 等 等 。 在 这 些 检查 都 
通过 后 ， 开 始 执 行 主体 内 容 ， 即 调用 fle_read O 
函数 ， 读 取 进 程 指定 的 文件 数据 ， 执 行 代 码 如 下 : 








// 代 码 路 径 : fs/read_write.c: 


int sys_read (unsigned int fd,char * buf,int count) /从 hello.txt 文 件 中 
读数 据 


{V/fd 是 文件 句柄 ，buf 是 用 户 空间 指针 ，count 是 要 读 取 的 字 节 数 
struct file * file; 
struct m_inode * inode; 


if (fd>=NR_OPEN||count<O]|! (file=current->filp[fd]) ) /检查 
fd、count 是 人 否 在 合 / 理 范 围 内 及 文件 是 否 已 经 打开 





return-EINVAL ; 
if C! count) /如 果 读 取 字 节 数 为 0， 直 接 返 回 
return 0; 


verify _area (buf,count) ; /对 buf 所 在 页 面 的 属性 进行 验证 ， 如 果 
该 页 面 是 只 读 的 则 复制 该 页 面 《 见 第 6 草 ) 








inode=file- >f_inode; 

if (inode->i_pipe) 

return (file->f_mode&1) ?read_pipe (inode,buf,count) : -EIO; 
if (S_ISCHR Cinode->i_mode) ) 


return rw_char (READ, inode->i_zone[0], buf,count, &file-> 
f pos) ; 


if (S_ISBLK (Cinode->i_mode) ) 


return block_read (inode->i_zone[0], &file->f_pos,buf,count) ; 


if (S_ISDIR Cinode->i_mode) ||S_ISREG (inode->i mode) ) {// 
分 析 hello.txt 文 件 i 节 点 属性 ， 得 知 它 为 普通 文件 





if (count+file->f_pos>inode->i_size ) 

count=inode- > i_size-file- >f_pos; 

if (count<=0) 

return 0; 

return fle_read Cinode,fle,buf,count) ; V/ 读 取 进 程 指定 数据 
} 


printk (" (Read) inode->i_mode=%06o\n\r";, inode->i_mode) ; 
retun-EINVAL; 





fEfile read O 中 ， 通 过 调用 bmp〈) 函数 来 
确定 指定 的 文件 数据 块 在 外 设 上 的 逻辑 块 号 。 执 行 
代码 如 下 : 








/代码 路 径 : include/linux/fs.h: 


#define BLOCK_ SIZE 1024 
RAGES: fs/fle_dev.c: 


int file_read (struct m_inode * inode,struct file * filp,char * buf,int 
count) { 


int left,chars,nr; 
struct buffer_head * bh; 
if ( Ceft=count) <=0) 


return 0; 


while (left) {/ 每 次 循环 ， 最 多 将 一 个 缓冲 块 (1 KB) 的 数据 复制 


到 buf 空 间 内 


if Cnr=bmap (inode, (filp->f pos) /BLOCK_SIZE) ) { 


/用 文件 操作 指针 偏 移 量 除 以 BLOCK_SIZE (1024) ， 算 出 要 操作 


文件 中 的 那 一 块 数 据 


IFRA, WEN filp->f_posy0 





/根据 数据 在 文件 中 的 数据 块 号 ， 确 定 其 在 外 设 上 的 逻辑 块 号 
if C! (bh=bread (inode->i_dev,nr) ) ) /从 外 设 上 读 取 数据 
break; 


yelse 


bh=NULL; 


值得 注意 的 是 ，bmp O KoH bmp © K 
数 时 ， 增 加 了 一 个 参数 。 


代码 如 下 : 
/代码 路 径 : fs/inode.c: 


int bmap (struct m_inode * inode,int block) 


{ 








return _bmap Cinode,block, 0) ; /最 后 一 个 参数 是 创建 标志 位 。 置 
0， 表 示 操 作 一 个 已 有 的 块 置 1， 表 示 创 建 一 个 新 的 块 


} 


下 面 完 介绍 i 节 扩 是 如 何 管理 文件 的 。 


节点 通过 它 的 i_zone 结 构 来 管理 文件 数据 块 ， 
具体 情景 如 图 5-5 一 图 5-7 所 示 。 
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文件 数据 块 总 最 小 于 等 于 7 块 (每 块 1KB)， 即 7KB 


图 5-5 文件 数据 小 于 7 块 时 i 节 点 的 管理 示意 图 
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文件 数据 块 总 最大 于 7 块 ， 小 于 等 于 
(7+512) 抉 (每 抉 ] KB), 2O(7+512)KB 


图 5-6 文件 数据 大 于 7 块 、 小 于 (7+512) 块 时 i 








节点 的 管理 示意 图 
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图 5-7 文件 数据 块 大 于 (7+512) 、 小 于 minix 允 
许 的 极限 情况 时 i 节点 的 管理 示意 图 


i_zone[9] 中 记录 着 文件 数据 块 内 容 的 分 布 情 
况 ， 但 是 它 毕 竟 只 有 9 个 表 项 ， 文 件数 据 块 数量 如 
果 多 于 9 个 就 不 够 用 。 为 此 Linux 0.11 采 取 了 一 种 策 
MS: 在 数据 区 中 的 数据 块 内 继续 存储 逻辑 块 的 索引 


值 ， 以 此 来 分 级 管理 数据 其 ， 这 样 误 可 以 增 大 害 理 
的 数据 块 数 量 。 





当 数 据 总 量 小 于 等 于 7 KB 时 ，i_zone[9] 的 前 7 
个 成 员 已 经 足够 用 了 ， 它 们 就 直接 记录 该 文件 的 这 
7 个 数据 块 在 数据 区 的 “ 块 号 ”。 





当 数 据 量 大 于 7 KB 时 ， 就 要 启动 一 级 间接 管理 
方案 。i_zone[9] 在 其 第 8 个 成 员 记录 一 个 数据 块 的 
块 号 ， 但 这 个 块 里 面 存储 的 并 不 是 文件 数据 内 容 ， 
而 是 该 文件 后 续 512 个 数据 块 在 外 设 中 的 “多 辑 块 
号 ”。 通 过 这 些 块 号 就 可 以 找到 相应 的 数据 块 ， 因 
为 一 个 数据 块 的 大 小 为 1024 字 节 ， 而 每 个 块 号 需要 
占用 两 个 字 节 ， 上 所 以 一 个 数据 块 能 存储 512 个 块 
号 。 这 样 ， 对 数据 块 进行 一 级 间接 管理 时 ， 能 够 管 
理 的 极限 应 该 是 (7+512) 个 数据 块 ， 即 (7+512) 


KB. 


当 数 据 量 大 于 (7+512) KB 时 ， 就 要 启动 二 级 
间接 管理 方案 ， 让 其 第 9 个 成 员 记录 一 个 数据 块 的 
块 号 。 同 样 ， 这 个 块 里 面 存 储 的 并 不 是 文件 内 容 ， 
而 是 512 个 数据 块 在 设备 中 的 “ 馆 辑 块 写 ”。 在 这 512 
个 数据 块 中 ， 存 储 的 仍然 不 是 具体 的 数据 内 容 ， 而 
还 是 索引 块 。 每 个 块 里 面 又 都 存储 着 512 个 数据 块 
的 逻辑 块 写 ， 这 些 块 号 对 应 的 数据 块 中 存储 的 才 是 
文件 的 具体 数据 内 容 。 对 数据 块 进行 二 级 间接 管理 
时 ， 能 够 管理 的 极限 应 该 是 〈7+512+512x512) 个 


数据 块 ， 即 (7+512+512x512) KB. 








实例 1 中 ， 此 时 正在 读 取 hello.txt 文 件 的 第 一 个 
数据 块 ， 属 于 小 于 、 等 于 7 个 逻辑 块 的 情况 ， 执 行 
代码 如 下 : 


/代码 路 径 : fs/inode.c: 

static int_bmap (struct m_inode * inode,int block,int create ) 
{ 

struct buffer_head * bh; 

int i; 

if Cblock<O) URRE CFTR Ss T-0 

panic ("_bmap: block<O") ; 


if (block >=7+512+512*512) /如 果 竺 操作 文件 数据 块 号 大 于 允许 


的 文件 数据 块 数 量 最 大 值 


块 


-> 


panic (" bmap: block>big") ; 
/小 于 等 于 7 个 逻辑 块 的 情况 
if Cblock<7) {/ 竺 操作 数据 块 文件 块 号 小 于 7 


if (create& & ! inode->i_zone[block]) /如 果 是 创建 一 个 新 数据 
执行 下 面 代码 


if (inode->i_zone[block]=new_block (inode->i_dev) ) { 
inode->i_ctime=CURRENT_TIME; 


inode- >i_dirt=1; 


} 


return inode->i_zone[block]; /将 i_zone 中 block 项 记录 的 逻辑 块 号 数 
值 返回 


} 
/大 于 7、 小 于 等 于 (74512) 个 逻辑 块 的 情况 
block-=7; 


if (block<512) {/ 待 操作 数据 块 文件 块 号 小 于 512， 需 要 一 级 间接 
检索 文件 块 号 


if (create& & ! inode->i_zone[7]) // 如 果 是 创建 一 个 新 数据 块 ， 执 
行 下 面 代码 


if (inode->i_zone[7]=new_block (inode->i dev) ) { 
inode- > i_dirt=1; 
inode- >i_ctime=CURRENT_TIME; 


} 








if (! inode->i_zone[7]) // 一 级 间接 块 中 没有 索引 号 ， 无 法 继续 查 
找 ， 直 接 返 回 0 


return 0; 


if C! (bh=bread (inode->i_dev,inode->i_zone[7]) ) ) /获取 一 
级 间接 块 


return 0; 


i= ( (unsigned short *) (bh->b_data) ) [block]; // 取 该 间接 块 上 
第 block 项 中 的 逻辑 块 号 


if Ccreae&&! i) // 如 有 果 是 创建 一 个 新 数据 块 ， 执 行 下 面 代码 
if (i=new_block (inode->i_dev) ) { 

( (unsigned short *) (bh->b_data) ) [block]=i; 
bh->b_dirt=1; 

} 

brelse (bh) ; 


return i; 


block-=512; 


if (create& & ! inode->i_zone[8]) // 如 果 是 创建 一 个 新 数据 块 ， 执 
行 下 面 代码 


if (inode->i_zone[8]=new_block (inode->i_dev) ) { 


inode- >i_dirt=1; 


inode- >i_ctime=CURRENT_TIME; 


} 











if (! inode->i_zone[8]) /—-RIRAPRARS|S, TEKEE 
找 ， 直 接 返 回 0 


return 0; 


if (! (bh=bread (inode->i_dev,inode->i_zone[8]) ) ) /获取 一 
级 间接 块 


return 0; 


i= ( (unsigned short *) bh->b_data) [block>>9]; W 取 该 间接 块 
上 第 block/512 项 中 的 逻辑 块 号 


if (create & &! i) /如 果 是 创建 一 个 新 数据 块 ， 执 行 下 面 代码 
if (i=new_block (inode->i_dev) ) { 

( Cunsigned short *) (bh->b data) ) [block>>9]=i; 
bh->b_dirt=1; 
} 
brelse (bh) ; 
if C! i) 


return 0; 


if C! (bh=bread (inode->i_dev,i) ) ) /获取 二 级 间接 块 
return 0; 


i= ( (unsigned short *) bh->b_data) [block& 511]; // 取 该 间接 块 
第 二 级 上 第 block&511 项 中 的 逻辑 块 号 


if (create& &! i) // 如 果 是 创建 一 个 新 数据 块 ， 执 行 下 面 代码 
if (i=new_block (inode->i dev) ) { 

( (unsigned short *) (bh->b_data) ) [block&511]=i; 
bh->b_dirt=1; 
} 
brelse (bh) ; 
return 1; 


} 


i 


5.3.2 ”将 数据 块 证 入 缓冲 块 


调用 bread © 函数 ， 从 人 硬盘 中 将 hello.txt 文 件 
的 第 一 个 数据 块 谈 入 指定 的 缓冲 块 。 情 景 如 图 5-8 
所 示 。 
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执行 代码 如 下 : 


/代码 路 径 : fs/fle_dev.c: 


int file_read (struct m_inode * inode,struct file * filp,char * buf,int 
count) 


while Cleft) (FREAR KARR CKB) 的 数据 复制 到 
buf © la) A 


if Cnr=bmap (inode, (filp->f_pos) /BLOCK_SIZE) ) {// 根 据 数 
Dae CPE PA ae Ss ERE HE EARS 


if (! (bh=bread (inode->i_dev,nr) ) ) /从 外 设 上 读 取 数据 
break; 
}else 


bh=NULL; 








bread O 函数 的 详细 执行 过 程 ， 本 书 已 在 3.3.1 


节 中 介绍 。 


5.3.3 ”将 缓冲 块 中 的 数据 复制 到 进程 空间 


数据 块 载 入 缓冲 区 后 ， 系 统 要 将 其 从 缓冲 区 复 
制 到 指定 的 用 户 进程 数据 空间 buf) 内 ， 执 行 代 
Ain F: 


/代码 路 径 : fs/fle_dev.c: 


int file_read (struct m_inode * inode,struct file * filp,char * buf,int 
count ) 


}else 


bh=NULL; 








nr=filp->f_pos%BLOCK_SIZE; /以 下 4 行 是 计算 具体 要 复制 多 少 
字 节 的 数据 到 用 户 空间 


chars=MIN (BLOCK_SIZE-nr,left) ; 

filp- > f_pos+=chars; 

left-=chars; 

if Cbh) {/ 如 采 确 实 从 外 设 上 获取 到 了 数据 

char * p=nr+bh->b_data; 

while (chars-->0) /将 chars 字 节 的 数据 复制 到 用 户 指定 空 间 内 
put _fs_byte (* (p++) , buf++) ; 


brelse (bh) ; 





}else{// 人 否则 就 往 指 定 用 户 空间 复制 chars 个 0 
while (chars-->0) 
put _fs byte (0, buf++) ; 


} 


inode- >i_atime=CURRENT_TIME; 


return (count-left) ? Ccount-left) : -ERROR; 
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的 情景 如 图 5-9 所 示 。 
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此 时 只 是 从 hello.txt 文 件 的 起 始 位 置 读 出 了 一 
个 数据 块 CG KB) 的 数据 。 通 过 while 不 断 地 循 
环 ， 将 指定 数量 的 数据 全 部 载 入 用 户 进程 的 *buf 区 
域 。 





读 文件 操作 讲解 完毕 ， 下 面 通过 实例 2 讲解 新 
建文 件 、 写 文件 操作 。 


实例 2: 用 户 进程 在 使 盘 上 新 建 一 个 文件 ， 并 
将 内 容 写 入 这 个 文件 。 


本 实例 的 内 容 分 为 两 部 分 :“ 新 建文 件 " 和 “ 写 
入 内 容 ”。 实 例 2 对 应 的 进程 代码 如 下 : 


void main () 

{ 

char str1[]="Hello,world"; 

// 新 建文 件 

int fd=creat ("/mnt/user/user1/user2/hello.txt", 0644) ) ; 
NE SAF 

int size=write (fd,str1, strlen (str1) ) ; 


} 


5.4 新 建文 件 








新 建文 件 就 是 根据 用 户 进程 要 求 ， 创 建 一 个 文 
件 系统 中 不 存在 的 文件 。 新 建文 件 由 creat〈) 函数 
实现 。 


5.4.1 查找 文件 


creat () Kr AREY Bllsys creat () 函数 
中 ， 新 建文 件 和 打开 文件 的 代码 类 似 ， 所 以 进入 
sys_creat () 六 数 后 ， 直 接 调 用 sys_open〈() 函数 
来 新 建文 件 。 


执行 代码 如 下 : 


/代码 路 径 : fs/fle_dev.c: 


int sys_creat (const char * pathname,int mode) /创建 一 个 新 文件 
{ 


/注意 : 创建 标志 位 O_CREAT 和 独占 标志 位 O_TRUNC 全 部 置 位 ， 
flag 参 数 与 5.2.2 节 中 的 不 同 了 


return sys_open (pathname,O_CREAT|O_TRUNC,mode) ; 


} 





通过 调用 open_namei () 函数 来 获取 hello.txt 文 
件 的 i 节点 。 


对 应 代码 如 下 : 





/代码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode ) 


mode & =0777 & ~current->umask; /设置 该 文件 模式 为 用 户 许 可 使 
用 模式 


for (fd=0; fd<NR_OPEN; fd++) 
if C! current-> filp[fd]) 
return-EINVAL; 

Ccurrent->filp[fd]J=f) ->f_count++; 


if ( (i=open_namei (filename,flag,mode, & inode) ) <0) {// 获 取 
hello.txt 文 件 i 节 点 


current- > filp[fdJ=NULL; 


因为 是 新 建文 件 ， 此 时 该 文件 并 不 存在 ， 因 此 
open_namei () 函数 中 的 执行 情况 与 5.2.2 闻 中 介绍 
的 情况 有 所 区 别 : 调用 dir_namei() 函数 分 析 路 径 
名 最 终 获 取 枝 梢 i 节 点 后 ， 查 找 hello.txt 目 录 项 ， 无 
法 找到 ，bh 值 将 为 NULL。 








执行 代码 如 下 : 





/代码 路 径 : fs/namei.c: 
int open_namei (const char * pathname,int flag,int mode, 


struct m_inode ** res inode) 


mode & =0777 & ~current- > umask; 
mode|=I_LREGULAR; /设置 该 文件 为 普通 文件 


if (! (dir=dir namei (pathname, &namelen, &basename) ) ) // 


DT ERE, TRB EA 
retunn-ENOENT; 
if ©! namelen) {/*special case: '/usr/‘etc*/ 
if (! (flag& CO_LACCMODE|O_CREAT|O_TRUNC) ) ) { 
*res_inode=dir; 


return 0; 


iput (dir) ; 
return-EISDIR; 


} 


bh=find_entry ( &dir,basename,namelen, &de) ; AIXM iT 
找到 目标 文件 hello.txt 的 目录 项 


-> 


ee 


/代码 路 径 : fs/namei.c: 
static struct buffer_head * find_entry (struct m_inode ** dir, 


const char * name,int namelen,struct dir_entry ** res_dir) 


i=0; 
de= (struct dir_entry *) bh->b_data; //iEdefs lal 22772 H Heh 
while (i<entries) {/ 在 缓冲 块 的 所 有 目录 项 中 得 找 hello.txt 目 录 项 


if ( (char *) de>=BLOCK_SIZE+bh->b_ data) {/ 如 果 缓 冲 块 中 全 
部 搜索 完 ， 还 是 没有 找到 hello.txt 目 录 项 


brelse (bh) ; 


项 ， 


bh=NULL; 
if (! (block=bmap (*dir,i/DIR_ENTRIES_PER_BLOCK) ) || 


! (bh=bread ( (*dir) ->i_dev,block) ) ) {/ 就 继续 载 入 目录 
继续 找 


i+=DIR_ENTRIES PER BLOCK; 

continue; 

} 

de= (struct dir_entry *) bh->b_data; 

} 

if (match (namelen,name,de) ) {/ 目 录 项 匹配 确认 
*res_dir=de; /如 果 找 到 了 hello.txt 目 录 项 ， 就 交 给 *res_dir 指 针 


return bh; 


brelse (bh) ; 


return NULL; /最 终 没 有 找到 hello.txt 目 录 项 





5.4.2 JELITA 


没有 找到 hello.txt 目 录 项 ， 并 不 能 确定 用 户 进 
程 的 本 意 就 是 要 新 建 hello.txt 文 件 (有 可 能 是 用 户 
进程 把 路 径 名 输入 错 了 ) ， 所 以 还 要 检查 新 建 i 节 点 
前 ，flag 中 的 O_CREAT 标 志 位 是 否 置 位 。 如 果 确 实 
置 位 了 ， 就 确定 用 户 进程 确实 是 要 新 建 一 个 文件 
《5.4.1 节 中 介绍 到 确实 已 经 置 位 了 ) 。 男 外 ， 新 建 
hello.txt 文 件 im 点 ， 将 在 user2 目 录 文 件 中 写 入 
hello.txt 文 件 对 应 的 新 目录 项 信息 ， 所 以 还 需 检查 
进程 对 该 目录 文件 是 否 具 备 写 入 权限 。 之 后 ， 再 调 
用 new_inode《〈) 函数 来 新 建 节 点， 并 对 i 节点 属性 


等 信息 进行 设置 。 




















执行 代码 如 下 : 





/代码 路 径 : fs/namei.c: 
int open_namei (const char * pathname,int flag,int mode, 


struct m_inode ** res inode) 


if ©! (dir=dir namei (pathname, &namelen, &basename) ) ) // 


TT ERE, TRAST EA 
return-ENOENT; 
if (! namelen) {/*special case: '/usr/‘etc*/ 
if (! (flag& CO_ACCMODE|O_CREAT|O_TRUNC) ) ) { 
*res_inode=dir; 


return 0; 


iput (dir) ; 


return-EISDIR; 


bh=find_entry ( &dir,basename,namelen, &de) ; // 通 过 枝 梢 i 节 


Far FREI CHP AY Bae 





if C! bh)〉{// 没 有 获取 目录 项 ， 绥 冲 块 为 空 





if C! (flag&O CREAT) ) {// 确 定 用 户 确实 是 要 新 建 一 个 文件 
iput (dir) ; 
return-ENOENT; 


} 





if ©! permission (dir.MAY_WRITE) ) {/ 确 定 用 户 是 否 在 user2 H 
录 文 件 中 有 写 入 权限 


iput (dir) ; 

retunn-EACCES; 

} 

inode=new_inode (dir->i_dev) ; /新 建 i 节 点 
if (! inode) { 

iput (dir) ; 

return-ENOSPC; 

} 


inode->i_uid=current->euid; // 设 置 i 节 点 用 户 id 


inode->i_mode=mode; /设置 节点 访问 模式 





inode->i_dirt=1; // 将 i 节点 已 改写 标志 置 1 
bh=add_entry (dir,basename,namelen, &de) 
if (C! bh) { 

inode- > i_nlinks--; 

iput Cinode) ; 

iput (dir) ; 


return-ENOSPC; 


de- > inode=inode- > i_num; 
bh->b_dirt=1; 

brelse (bh) ; 

iput (dir) ; 
*res_inode=inode; 


return 0; 


ee 


; // 新 建 目录 项 


new_inode () PRACT HT I AMES aA 


两 部 分 : 





1) BT AIA, SS AO DAN iF 


以 标识 。 


2) 要 将 i 市 后 的 部 分 属性 信息 载 入 


inode table[32] 表 中 指定 的 表 项 。 


执行 代码 如 下 : 


/代码 路 径 : fs/bitmap.c: 

struct m_inode * new_inode (int dev) 
{ 

struct m_inode * inode; 


struct super_block * sb; 


struct buffer_head * bh; 
int ij; 


if (! Cinode=get_empty_inode () ) ) // 在 inode_table[32] 中 获取 
空闲 节点 项 





return NULL; 


if C! (sb=get_super (dev) ) ) /获取 设备 超级 块 〈 安 装 文 件 系统 
时 已 载 入 ) 


panic ("new_inode with unknown device") ; 





j=8192; /以 下 是 根据 超级 块 中 i 节 点 位 图 信息 ， 设 置 ij 节点 位 图 
for (i=0; i<8; i++) 

if (bh=sb->s_imap[i]) 

if ( (j=find_first_zero (bh->b_data) ) <8192) 

break; 

if (! bhjlj>=8192||j+i*8192>sb->s_ninodes) { 

iput (inode) ; 

return NULL; 

} 


if (set_bit (j,bh->b_data) ) /以 上 是 根据 超级 块 中 i 节点 位 图 信 


AB, Wei iA 
panic ("new_inode: bit already set") ; 


bh->b_dirt=1; // 将 i 节点 位 图 所 在 的 缓冲 块 已 改写 标志 置 1 





/以 下 对 这 点 属性 进行 设置 
inode->i_count=1; 
inode->i_nlinks=1; 

inode- > i_dev=dev; 

inode- > i_uid=current- > euid; 
inode- > i_gid=current- > egid; 
inode- > i_dirt=1; 

inode- > i_num=j+i*8192; 


inode- >i_mtime=inode- > i_atime=inode- > 
i_ctime=CURRENT_TIME; 


return inode; 





5.4.3 ”新 建文 件 目录 项 





hello.txt 的 目录 项 要 载 入 user2 目 录 文 件 中 ， 这 
里 先 介绍 目录 文件 的 示意 图 〈 见 图 5-10) 。 


图 5-10 中 的 情况 1 为 一 个 目录 文件 的 初始 状 
AS; 情况 2 是 将 其 中 的 目录 项 删除 (删除 的 本 质 束 
是 将 目录 项 中 的 i 节 点 号 清 0) ;情况 3、 情 况 4 和 情 
况 5 都 是 不 断 地 加 载 目录 项 时 出 现 的 情况 。 








调用 add_entry〈() 函数 来 新 建 目 录 项 。 


i 第 一 个 ; 第 二 个 | 第 三 个 } 第 四 个 | 

| 数据 块 ; 数据 块 | 数据 块 ; 数据 块 

| (KB) | (1 KB) | (1 KB) | (LKB) ; 
a ee 情况 1 
目录 文件 9D T ; 情况 2 
a ae me =a :情况 3 
att O es 
6 录 文 作 Rn T TT #32 


日 从 未 占用 的 目录 项 

占用 后 又 被 大 弥 的 目录 项 
图 己 被 占用 的 目录 项 
图 不 时 插入 的 新 目录 项 


图 5-10 目录 文件 示意 图 


执行 代码 如 下 : 





/代码 路 径 : fs/namei.c: 


int open_namei (const char * pathname,int flag,int mode,struct 
m_inode ** res_inode ) 


inode=new_inode (dir->i dev) ; // 新 建 i 节 点 


if (! inode) { 

iput (dir) ; 

return-ENOSPC; 

} 

inode->i_uid=current->euid; /设置 i 节 点 用 户 id 
inode->i_mode=mode; /设置 i 节 点 访问 模式 
inode->i_dirt=1; // 将 i 节点 使 用 标志 置 1 
bh=add_entry (dir,basename,namelen, &de) ; /添加 目录 项 
if C! bh) { 

inode- > i_nlinks--; 

iput (inode) ; 

iput (dir) ; 


return-ENOSPC; 





de->inode=inode->i_num; /在 目录 项 中 添加 i 节 点 号 
bh->b_dirt=1; 


brelse (bh) ; 


iput (dir) ; 
*res inode=inode; 


return 0; 





add_entry () 函数 的 任务 是 : 只 要 在 目录 文件 
中 寻找 到 空闲 项 ， 就 在 此 位 置 处 加 载 新 目录 项 ， 如 
果 确 实 找 不 到 空闲 项 ， 就 在 外 设 上 创建 新 的 数据 块 
来 加 载 ， 加 载 的 情景 如 前 面 示 意图 所 示 。 


执行 代码 如 下 : 


/代码 路 径 : fs/namei.c: 
static struct buffer_head * add_entry (struct m_inode * dir, 


const char * name,int namelen,struct dir_entry ** res_dir) ///Euser2 H 


录 文 件 中 添加 目录 项 


int block,i; 

struct buffer_head * bh; 
struct dir_entry * de; 
*res_dir=NULL; 

#ifdef NO_TRUNCATE 

if (namelen >NAME LEN) 
return NULL; 

#else 

if (namelen >NAME LEN) 
namelen=NAME LEN; 
#endif 

if (! namelen) 

return NULL; 


if C! (Cblock=dir->i_zone[0]) ) 确定 user2 目 录 文 件 第 一 个 文件 
块 在 设备 上 的 逻辑 块 写 ( 不 能 是 0) 


return NULL; 


if C! (bh=bread (dir->i_dev,block) ) ) /将 目录 文件 的 内 容 载 入 


一 个 数据 块 


项 


return NULL; 
i=0; 


de= (struct dir_entry *) bh->b_data; 





while (1) {/ 在 目录 文件 中 搜索 空闲 目录 项 
// 如 果 整 个 数据 块 中 部 没 有 空 几 项 ， 就 载 入 下 一 个 数据 块 继续 搜索 
// 全 部 载 入 后 仍然 没有 ， 束 在 设备 上 新 建 数 据 块 ， 用 以 加 载 新 目录 


if ( (char *) de>=BLOCK_SIZE+bh->b_data) { 

brelse (bh) ; 

bh=NULL; 

block=create_block (dir,i/DIR_ ENTRIES PER BLOCK) ; 
if (! block) 

return NULL; 

if (! (bh=bread (dir->i_dev,block) ) ) { 


i+=DIR_ENTRIES_PER_ BLOCK; 


continue; 


de= (struct dir_entry *) bh->b_data; 

} 

/在 数据 块 的 末端 找到 空闲 项 ， 融 在 空闲 位 置 加 载 目 录 项 
if (i * sizeof (struct dir_entry) >=dir->i_size) { 

de- > inode=0; 

dir->i_size= (i+1) *sizeof (struct dir entry) ; 
dir->i_dirt=1; 

dir- >i_ctime=CURRENT_TIME; 

} 

// 在 数据 块 的 中 间 某 位 置 找到 空间 项 ， 就 在 该 位 置 加 载 目录 项 
if (! de->inode) { 

dir- >i_mtime=CURRENT_TIME; 

for (i=0; i< NAME LEN; i++) 

de->name[i]J= (i<namelen) ?get fs byte (nameti) : 0; 


bh->b_dirt=1; 


*res_dir=de; 


return bh; 


brelse (bh) ; 


return NULL; 


} 





值得 注意 的 是 create_block O pra. JAA IAPR 
数 的 执行 代码 如 下 : 





/代码 路 径 :; fs/inode.c: 
int create_block (struct m_inode * inode,int block ) 


{ 











/最 后 一 个 参数 是 创建 标志 位 ， 与 本 章 5.3.1 节 中 不 同 的 是 ， 此 时 它 








被 置 为 1， 表 示 有 可 能 要 创建 新 数据 块 
return _bmap Cinode,block, 1) ; 


} 





HA bmp O 函数 后 ， 值 得 关注 的 代码 如 
下 : 





/代码 路 径 : fs/inode.c: 

static int_bmap (struct m_inode * inode,int block,int create ) 
{ 

struct buffer_head * bh; 

int i; 

if Cblock<0) URERA ER Ss) T-0 

panic ("_bmap: block<0") ; 


if (block >=7+512+512*512) /如 果 竺 操作 文件 数据 块 号 大 于 允许 
的 文件 数据 数量 最 大 值 


panic ("_bmap: block>big") ; 


1/ 小 于 等 于 7 个 逻辑 块 的 情况 
if Cblock<7) {/ 符 操作 数据 英文 件 块 号 小 于 7 


if (create& & ! inode->i_zone[block]) /如 果 是 创建 一 个 新 数据 


块 ， 执 行 下 面 代码 


-> 


if (inode->i_zone[block]=new_block (inode->i dev) ) { 
inode- >i_ctime=CURRENT_TIME; 

inode- > i_dirt=1; 

} 


return inode->i_zone[block]; /将 i_zone 中 block 项 记录 的 逻辑 块 号 数 
值 返回 


} 
/大 于 7、 小 于 等 于 (74512) 个 逻辑 块 的 情况 
block-=7; 


if (block<512) {/ 待 操作 数据 块 文件 块 号 小 于 512， 需 要 一 级 间接 
检索 文件 块 号 


if (create& & ! inode->i_zone[7]) // 如 果 是 创建 一 个 新 数据 块 ， 执 
行 下 面 代码 


if (inode->i_zone[7]=new_block (inode->i dev) ) { 


inode->i_dirt=1; 


inode- >i_ctime=CURRENT_TIME; 


} 








if (! inode->i_zone[7]) /一 级 间接 块 中 没有 索引 号 ， 无 法 继续 碍 
找 ， 直 接 返 回 0 





return 0; 


if C! (bh=bread (inode->i_dev,inode->i_zone[7]) ) ) /获取 一 
级 间接 块 


return 0; 


i= ( (unsigned short *) (bh->b_data) ) [block]; // 取 该 间接 块 上 
第 block 项 中 的 逻辑 块 


if 《create & & ! i) // 如 有 果 是 创建 一 个 新 数据 块 ， 执 行 下 面 代码 
if (i=new_block (inode->i_dev) ) { 

( (unsigned short *) (bh->b_data) ) [block]=i; 
bh->b_dirt=1; 

} 

brelse (bh) ; 


return i; 


} 


WRF (74512) 、 小 于 〈7+512+512x512) 个 逻辑 块 的 情况 
block-=512; 


if (create& &! inode->i_zone[8]) /如 果 是 创建 一 个 新 数据 块 ， 执 
行 下 面 代码 


if (inode->i_zone[8]=new_block (inode->i_dev) ) { 
inode- > i_dirt=1; 
inode->i_ctime=CURRENT_TIME; 


} 








if (! inode->i_zone[8]) /— RHR RARI Ss, MERKEA 
找 ， 直 接 返 回 0 


return 0; 


if C! (bh=bread (inode->i_dev,inode->i_zone[8]) ) ) /获取 一 
级 间接 块 


return 0; 


i= ( (unsigned short *) bh->b_data) [block>>9]; W 取 该 间接 块 
上 第 block/512 项 中 的 逻辑 块 号 


if (create& &! i) // 如 果 是 创建 一 个 新 数据 块 ， 执 行 下 面 代码 
if (i=new_block (inode->i dev) ) { 


( Cunsigned short *) (bh->b data) ) [block>>9]=i; 


bh->b_dirt=1; 

} 

brelse (bh) ; 

if (! i) 

return 0; 

if C! (bh=bread (inode->i_dev,i) ) ) /获取 二 级 间接 块 
return 0; 


i= ( (unsigned short *) bh->b_data) [block&511]; V/ 取 该 间接 块 
第 二 级 上 第 block&511 项 中 的 逻辑 块 号 


if Ccreate& &! i) /如 果 是 创建 一 个 新 数据 块 ， 执 行 下 面 代码 
if (i=new_block Cinode->i_dev) ) { 

( Cunsigned short *) (bh->b_data) ) [block &511]=i; 
bh->b_dirt=1; 
i 
brelse (bh) ; 
return 1; 


} 





create 标 志 置 位 ， 不 等 于 惑 要 创建 一 个 新 数据 
块 ， 必 须 确保 文件 的 下 一 个 文件 块 不 存在 ， 即 ! 
inode- 之 i_zone[..…..] 或 ! 成立， 才能 创建 新 数据 
块 。 比 如 本 实例 中 加 载 目 录 项 的 内 容 ， 一 个 数据 块 
中 没有 发 现 空间 项 ， 很 可 能 下 一 个 数据 块 中 就 有 ， 
URGE TAPER, MRE AE ete 
导致 目录 文件 管理 混乱 。 











新 建 数据 块 的 工作 在 new_block ©) 函数 中 执 


行 ， 将 在 本 章 5.5 节 中 详细 介绍 。 








新 建 目 录 项 的 情景 如 图 5-11 所 示 。 
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| 为 hello txt 文 件 
新 建 一 个 目录 项 





图 5-11 碍 找 空 目录 项 并 添加 目录 数据 


5.5 St 





操作 系统 对 与 文件 操作 的 规定 是 : 进程 空间 的 
数据 先 要 写 入 缓冲 区 中 ， 然 后 操作 系统 在 适当 的 条 
件 下 ， 将 缓冲 区 中 的 数据 同步 到 外 设 上 。 而 且 ， 操 
作 系 统 只 能 以 数据 块 (1 KB) 为 单位 ， 将 缓冲 区 中 
的 缓冲 天 (1 KB) 的 数据 同步 到 外 设 上 。 这 就 需要 
在 同步 之 前 ， 绥 冲 块 与 外 设 上 要 写 入 的 他 辑 块 进行 
对 一 绑 定 ， 确 定 外 设 上 的 写 入 位 置 ， 以 此 保证 用 
三 空间 写 入 缓冲 块 的 数据 ， 能 够 准确 地 同步 到 指定 
ZAR ERP 





首先 介绍 如 何 确 定 绑 定 关系 。 


5.5.1 确定 文件 的 写 入 位 置 


write O 函数 最 终 上 映射 到 sys_write O 函数 中 
去 执行 。 该 函数 移 对 参数 的 合理 性 进行 检查 ， 之 后 
调用 file_ write () KA ICE. 





执行 代码 如 下 : 





/代码 路 径 : fs/read_write.c: 

int sys_write (unsigned int fd,char * buf,int count) // 写 文件 
{ 

struct file * file; 

struct m_inode * inode; 


if (fd >=NR_OPEN||count<0||! (file=current->filp[fd]) ) //fd. 
count 是 否 在 合理 范围 内 及 文件 是 否 已 经 打开 





return-EINVAL; 
if C! count) /如 果 写 入 字 节 数 为 0， 直 接 返 回 
return 0; 


inode=file->f_inode; 


if (inode->i_pipe) 
return (file->f_mode&2) ?write_pipe Cinode,buf,count) : -EIO; 
if (S_ISCHR (inode->i mode) ) 


return rw_char (WRITE, inode->i_zone[0], buf,count, & file-> 
f_pos) ; 


if (S_ISBLK (Cinode->i_mode) ) 

return block_write (inode->i_zone[0], &file->f_pos,buf,count) ; 
if (S_ISREG (inode->i_mode) ) /确定 待 写 入 文件 是 普通 文件 
return file_ write (inode,file,buf,count) ; // 写 文件 

printk (" (Write) inode->i_mode=%06o\n\r", inode->i_mode) ; 
return-EINVAL; 


} 





用 户 进 程 传递 的 flags 参 数 ， 决 定 了 文件 的 数据 
写 入 位 置 。 因 此 进入 file_write() An, ERA 
f_flags 标 志 位 来 确定 写 入 位 置 ， 之 后 ， 调 用 
create_block O 函数 ， 创 建 一 个 与 该 文件 位 置 对 应 


的 外 设 逻 辑 块 ， 并 返回 逻辑 块 写 。 


执行 代码 如 下 : 





/代码 路 径 : fs/fle_dev.c: 


int file_write (struct m_inode * inode,struct file * filp,char * buf,int 
count) 


off _t pos; 

int block,c; 

struct buffer_head * bh; 
char * p; 

int i=0; 

/* 


*ok,append may not work when many processes are writing at the same 
time 


*but so what. That way leads to madness anyway. 


*/ 


if (filp->f_flags&O_APPEND) /如 果 设 置 了 文件 尾部 加 写 标志 
pos=inode->i_size; /pos 移 至 文件 尾部 
else 


pos=filp->f_pos; /直接 从 文件 指针 f_pos 当 前 指 疝 的 位 置 处 开始 写 
入 数据 (本 采 例 是 这 种 情况 ，f_pos 为 0) 


while (i<count) { 


if (! (block=create_block (inode,pos/BLOCK_SIZE) ) ) /创建 还 
辑 块 ， 并 返回 块 号 


break:; 


if C! (bh=bread (inode->i_dev,block) ) ) /申请 缓冲 块 〈 不 需要 
读 出 来 ) 


break; 





创建 一 个 新 的 数据 块 ， 并 使 之 与 i 节点 中 指定 
的 i zone[9] 对 应 。 


执行 代码 如 下 : 





/代码 路 径 : fs/inode.c: 


int create_block (struct m_inode * inode,int block ) 


{ 








return _bmap Cinode,block, 1) ; /最 后 一 个 参数 是 创建 标志 位 ， 置 
1， 表 示 创 建 一 个 新 的 块 


} 

/代码 路 径 : fs/inode.c: 

static int_bmap (struct m_inode * inode,int block,int create ) 
{ 

struct buffer_head * bh; 

int i; 

if Cblock<O) URERA ER S ) T-0 

panic ("_bmap: block<0") ; 


if (block >=7+512+512*512) /如 果 待 操作 文件 数据 块 号 大 于 允许 
的 文件 数据 块 数量 最 大 值 


panic ("_bmap: block>big") ; 


if (block<7) {VW 竺 操作 数据 块 文件 块 号 block 小 于 7， 本 案例 中 
block 为 0 


if (create& &! inode->i zone[block]) /创建 一 个 新 数据 块 


if (inode->i_zone[block]=new_block (inode->i_dev) ) {// 将 新 建 
数据 块 和 /fi 节点 中 的 i_zone[9] 对 应 


inode->i_ctime=CURRENT_TIME; 
inode->i_dirt=1; 
} 


return inode->i_zone[block]; /将 i_zone[9] 中 block 项 记录 的 逻辑 块 
号 数值 返回 





具体 的 创建 工作 是 在 new_block © 函数 中 进 
行 的 ， 内 容 包 括 两 部 分 : 


1) Rp TE BT NT Dv HI FE ER fiz A 1 


2) FER X PA BE MAE A PR, 
用 以 承载 写 入 的 内 容 。 


执行 代码 如 下 : 


/代码 路 径 : fs/bitmap.c: 

int new_block Cint dev) /创建 一 个 新 数据 块 
{ 

struct buffer_head * bh; 

struct super_block * sb; 

int i,j; 


if C! (sb=get_super (dev) ) ) /获取 设备 的 超级 块 《〈 安 装 文 件 系 
统 时 已 载 入 ) 


panic ("trying to get new block from nonexistant device") ; 
j=8192; 


/以 下 是 根据 超级 块 中 过 辑 块 位 图 信息 ， 对 新 数据 块 的 逻辑 其 位 图 


进行 设置 
for (i=0; i<8; i++) 
if (bh=sb->s_zmap[i]) 
if ( (j=find_first_zero (bh->b_data) ) <8192) 
break; 
if (i>=8||! bhlj 之 =8192) 
return 0; 


if (set_bit (j,bh->b_data) ) /以 上 是 根据 超级 块 中 逻辑 块 位 图 信 
息 ， 对 新 数据 块 的 逻辑 块 位 图 进行 设置 


panic ("new_block: bit already set") ; 


bh->b_dirt=1; /将 逻辑 块 位 图 所 在 的 缓冲 块 使 用 标记 置 1〈 已 改 
=) 


j+=i*8192+sb->s_firstdatazone-1; /确定 数据 块 逻辑 块 号 
if (j>=sb->s_nzones ) 
return 0; 


if C! (bh=getblk (dev,j) ) ) // 在 缓冲 区 中 ， 为 新 的 数据 块 申请 一 
个 空闲 缓冲 块 


panic ("new_block: cannot get block") ; 


if (bh->b_count! =1) 

panic ("new block: countis! =1") ; 

clear _block (bh->b_data) ; /将 该 逻辑 块 中 数据 清 零 
bh->b_uptodate=1; /已 更 新 标志 被 置 1 

bh->b_dirt=1; /已 改写 标志 被 置 1 

brelse (bh) ; 

return j; 


} 


ee | 


5.5.2 ”申请 缓冲 块 


调用 bread © Kžt, HH S-new_block O K% 
BEN ce PTB, A ARCA Ob ie EK Ae 
块 了 了 ， 执 行 代码 如 下 : 





/代码 路 径 : fs/fle_dev.c: 


int file_write (struct m_inode * inode,struct file * filp,char * buf,int 
count ) 


while (i<count) { 


if (! (block=create_block (inode,pos/BLOCK_SIZE) ) ) /创建 新 
的 数据 块 


break; 
if C! (bh=bread (inode->i_dev,block) ) ) // 载 入 缓冲 块 


break; 


c=pos%*BLOCK_SIZE; 


ee 


/代码 路 径 : fs/buffer.c: 
struct buffer_head * bread (int dev,int block ) 


{ 


struct buffer_head * bh; 





if (! (bh=getblk (dev,block) ) ) /数据 块 已 与 哈 希 表 挂 接 ， 不 需 
要 从 外 设 上 读 取 


panic ("bread: getblk returned NULL\n") ; 


if (bh->b_uptodate) //b_uptodate7Enew_block © 中 被 置 1， 直 接 
返回 





return bh; 

ll _rw_block (READ,bh) ; 
wait _on_buffer (bh) ; 

if (bh->b_uptodate ) 
return bh; 


brelse (bh) ; 


return NULL; 





5.5.3 ”将 指定 的 数据 从 进程 空间 复制 到 绥 
冲 块 


将 数据 复制 到 指定 缓冲 块 的 情景 如 图 5-12 所 
示 。 


名 Ox9FFFF OxFFFFF Ox3FFFFF OxSFFFFF OxFFFFFF 


—— a 
站 
$ ts 


| 将 主 内 存 中 数 | 
HARA BER 
Al 5-12 将 数据 复制 到 指定 绥 冲 块 
即将 写 入 的 字符 为 “Hello,world”， 一 个 绥 冲 块 
足以 承载 了 ， 因 此 while 循 环 只 进行 一 次 。 执 行 代 码 
如 下 : 


/代码 路 径 : fs/fle_dev.c: 


int file_write (struct m_inode * inode,struct file * filp,char * buf,int 
count) 


if (! (bh=bread (inode->i_dev,block) ) ) /申请 缓冲 块 〈 不 需要 
读 出 来 ) 


break; 

c=pos%BLOCK_SIZE; // 以 下 代码 计算 同 缓 冲 块 中 写 入 字 市 数 
p=c+bh- > b_data; 

bh->b_dirt=1; 

c=BLOCK_SIZE-c; 

if (c>count-i) c=count-i; 

pos+=c; 

if (pos>inode->i_size) { 

inode- > i_size=pos; 


inode->i_dirt=1; 


it+=C; 

while (c-->0) 

* (p++) =get_fs_byte (buf++) ; /将 数据 写 入 指定 的 缓冲 块 
brelse (bh) ; 

j 

inode->i_mtime=CURRENT_TIME; 

if (! (filp->f flags&O APPEND) ) { 
filp- > f_pos=pos; 

inode- >i_ctime=CURRENT_TIME; 

} 

return (i?i: -1) ; 


} 





此 时 ， 用户 进程 指定 的 数据 ， 只 是 写 入 缓冲 区 
中 ， 并 未 写 入 便 盘 。 下 面 介绍 数据 从 绥 冲 区 同步 到 
使 盘 的 方式 。 


5.5.4 数据 同步 到 外 设 的 两 种 方法 





数据 从 缓冲 区 同步 到 人 硬盘 有 两 种 方法 。 一 种 是 
updata 定 期 同步 ， 男 一 种 是 因 绥 冲 区 使 用 达到 极 
限 ， 操 作 系 统 强行 同步 。 


第 一 种 方法 : 


本 书 4.4.1 节 中 介绍 到 ，shell 进 程 在 第 一 次 执行 
时 ， 启 动 了 一 个 updata 进 程 。 这 个 进程 常 驻 于 内 
存 ， 功 能 就 是 将 缓冲 区 中 的 数据 同步 到 外 设 上 。 





该 进程 会 调用 pause O 函数 ， 这 个 函数 会 映 
IN #llsys_pause O 函数 中 ， 使 该 进程 被 设置 为 可 中 
断 等待 状 态 。 每 隔 一 段 时 间 ， 操 作 系 统 就 将 updata 
进程 唤醒 。 包 执行 后 ， 调 用 sync《〈) 函数 ， 将 绥 冲 











区 中 的 数据 同步 到 外 设 上 。 


sync O Až Ssys syne O 系统 调 

用 函数 去 执行 。 为 了 保证 文件 内 容 同 步 的 完整 性 ， 

要 将 文件 i 市 点 位 图 、 文 件 i 节 点 、 文 件数 据 块 、 
数据 块 对 应 的 逻辑 块 位 图 ， 全 都 同步 到 外 设 。 
sys_sync () 子 数 先 将 改动 过 的 文件 i 节点 写 入 缓冲 
区 〈 其 余 内 容 已 经 在 缓冲 区 中 了 ) ， 之 后 ， 授 历 整 
个 缓冲 区 ， 只 要 友 现 其 中 缓冲 块 内 容 被 改动 过 
(b_dirtiž E1) ， 就 全 部 同步 到 外 设 上 。 


执行 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 
int sys_sync (void) 
{ 


int i; 


struct buffer_head * bh; 

sync _inodes () ; MIT RS ARK 

bh=start_buffer; 

for (i=0; i<NR_BUFFERS; i++, bh++) {// 遍 历 整 个 缓冲 区 


wait _on_buffer (bh) ; /如 果 哪 个 缓冲 块 正在 使 用 ， 就 等 待 这 个 组 
冲 块 解锁 


if (bh->b_dirt) /只 要 这 个 缓冲 块 中 的 内 容 被 改写 
ll _rw_block (WRITE,bh) ; /将 该 缓冲 块 的 内 容 同步 到 外 设 中 
} 


return 0; 





fe ie AES Æ Hsync_inode K cE RAY 


执行 代码 如 下 : 





/代码 路 径 : fs/inode.c: 


void sync_inodes (void) 


int i; 

struct m_inode * inode; 

inode=0+inode_table; 

for (i=0; i<NR_INODE; i++, inodet++) {// 遍 历 所 有 i 节点 


wait _on_inode (inode) ; /如 果 允 历 到 的 i 节 点 正在 使 用 就 等 竺 该 i 


节点 解锁 


过 


?9 


if (inode->i_dirt& & ! inode->i_pipe) /如 果 i 节 点 内 容 已 经 改动 
而 且 不 是 管道 文件 的 i 节点 


write inode (inode) ; // 将 i 节点 同步 到 缓冲 区 


} 


/代码 路 径 : fs/inode.c: 


static void write inode (struct m_inode * inode) 


struct super_block * sb; 
struct buffer_head * bh; 


int block; 


lock _inode (inode) ; //SQiT AINA, NFE 
if (! inode->i_dirt||! inode->i_dev) { 
unlock _inode (inode) ; 


return; 


if C! (sb=get_super (inode->i_dev) ) ) /获取 外 设 超级 块 
panic ("trying to write inode without device") ; 
block=2+sb->s_imap_blocks+sb->s_zmap_blocks+ 


(inode->i_num-1) /INODES PER BLOCK; // 确 定 i 节 点 位 图 在 外 
设 上 的 逻辑 块 号 


if C! (bh=bread (inode->i_dev,block) ) ) // 将 i 节点 所 在 人 逻辑 块 
载 入 缓冲 区 


panic ("unable to read i-node block") ; 
C (struct d_inode *) bh->b_data) // 将 i 节点 同步 到 缓冲 区 
[ (inode->i_num-1) %INODES_PER_BLOCK]= 
* (struct d_inode *) inode; 
bh->b_dirt=1; /将 缓冲 块 的 b_dirt 置 1 


inode->i_dirt=0; // 将 i 节点 的 i_dirt 置 0 


brelse (bh) ; 
unlock inode (inode) ;Wi 节点 解锁 


} 


同步 工作 完成 后 ，updata 进 程 将 被 挂 起 ， 下 一 
次 被 唤醒 后 ， 继 续 同 步 缓冲 区 。 


第 二 种 方法 : 


实例 2 的 场景 比较 简单 ， 它 写 入 缓冲 区 的 数据 
比较 少 ， 我 们 不 妨 对 其 稍 加 改动 ， 来 看 下 面 源 代 
码 : 


void main ( ) 
{ 
char str1[]="Hello,world"; 


int i; 


// 新 建文 件 

int fd=creat ("/mnt/user/user1/user2/hello.txt", 0644) ) ; 
WEAF 

for (i=0; i<1000000; i++) 

{ 

int size=write (fd,str1, strlen (str1) ) ; 

j 


} 


要 写 入 的 数据 将 达到 10 MB 以 上 ， 而 缓冲 区 ， 
肯定 不 可 能 超过 10 MB， 因 此 ， 当 前 进程 要 写 入 数 
据 的 话 ， 很 可 能 在 updata 进 程 被 唤醒 之 前 ， 就 已 经 
将 缓冲 区 写 满 ， 石 继续 写 入 ， 束 需要 强行 将 绥 冲 区 
中 的 数据 同步 到 硬盘， 为 续 写 腾 出 空间 。 

















此 任务 是 由 getblk() 函数 完成 的 。 本 书 3.3.1 


“A CLZE eT ee BOE TI TPA, SEK P EREI 
的 空闲 块 都 已 经 无 法 继续 写 入 信息 (b_dirt 都 是 1) 
IY, GUHA ae ERS Ae lal S o 


执行 代码 如 下 : 





/代码 路 径 : fs/buffer.c: 

struct buffer head * getblk (int dev,int block) 
{ 

struct buffer_head * tmp, *bh; 

repeat: 

if (bh=get_hash_table (dev,block) ) 

return bh; 

tmp=free_list; 

do{ 

if (tmp->b_count) 


continue; 


if (! bh|IBADNESS (tmp) <BADNESS (bh) ) { 
bh=tmp; 
if (! BADNESS (tmp) ) 


break; 


/*and repeat until we find something good*/ 


}while ( (tmp=tmp->b_next_free) ! =free_list) ; /找到 空 采 的 组 
冲 块 〈 不 等 价 于 b_dirt 是 0) 


if (! bh) { 

sleep _on ( &buffer_wait) ; 
goto repeat; 

J 

wait _on_buffer (bh) ; 

if (bh->b_count) 

goto repeat; 


while (bh->b_dirt) {/ 虽 然 找到 空闲 缓冲 块 ， 但 b_dirt 仍 是 1， 说 明 
绥 冲 区 中 已 无 可 用 的 缓冲 块 了 ， 需 要 同步 腾空 


sync _dev (bh->b_dev) ; /同步 数据 


wait _on_buffer (bh) ; 

if (bh->b_count) 

goto repeat; 

} 

/*NOTE! While we slept waiting for this block,somebody else might*/ 
/*already have added"this"block to the cache.check it*/ 

if (find_buffer (dev,block) ) 

goto repeat; 

/*OK,FINALLY we know that this buffer is the only one of it's kind, */ 


/*and that it's unused (b_count=0) , unlocked (b_lock=0) , and 
clean*/ 


bh- >b_count=1; 
bh->b_dirt=0; 

bh- >b_uptodate=0; 

remove _from_queues (bh) ; 
bh->b_dev=dev; 


bh->b_blocknr=block; 


insert _into_queues (bh) ; 
return bh; 


} 


Dh _E ait xe Bae |] > A) BN PP AHIR 


值得 注意 的 是 ，5.5.3 市 中 p 指 同 的 数据 块 古 新 
申请 的 ， 之 前 没有 内 容 ， 从 指定 数据 块 的 起 始 位 置 
开始 写 入 数据 ， 不 会 影响 已 有 数据 ;如 末 hello.txt 
不 是 一 个 新 建文 件 ， 而 是 已 有 文件 ， 则 指针 p 无 论 
往 哪个 数据 块 号 入 数据 ， 都 会 把 这 个 数据 块 中 写 入 
Ra CA WN Stra a iB CORR ce TE Rei IN) 。 




















Raa DR BEE SCE ei Ss 如 
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sys_write ©) 函数 无 法 做 到 。 那 么 面 对 “ 改 写 ” 数 据 
这 种 更 为 复 森 的 文件 写 入 情况 ， 操 作 系 统 又 该 如 何 














处 理 呢 ? 下 面 将 详细 讲解 。 


5.6 ”修改 文件 


修改 文件 的 本 质 就 是 可 以 在 文件 的 任意 位 置 插 
入 数据 、 删 除数 据 ， 且 不 影响 文件 已 有 数据 。 此 问 
题 的 处 理 方案 是 : 将 sys_read O ~ sys_write () 
以 及 sys_lseek〈) 几 个 函数 组 合 使 用 。 
sys_read () 和 sys_write © 函数 已 在 5.3 节 和 5.5 节 
中 介绍 。 这 里 先 介绍 sys_lseek O 函数 ， 之 后 再 介 
绍 如 何 组 合 使 用 它们 。 





5.6.1 重 定 位 文件 的 当前 操作 指针 


用 户 进 程 调 用 lseek O 函数 ， 将 文件 的 当前 操 
作 指 针 f_pos 进 行 重 新 定位 ， 它 最 终 映 射 到 
sys _Iseek O 国 数 去 执行 。 


执行 代码 如 下 : 





/代码 路 径 : include/Unistd.h: 
#define SEEK_SET 0// 表 明 从 文件 起 始 处 开始 偏 移 


#define SEEK_CUR 1// 表 明 从 文件 的 当前 读 写 位 置 处 开始 偏 移 





#define SEEK_END 2// 表 明 从 文件 的 尾 端 开始 偏 移 
// 代 人 码 路 径 : fs/read_write.c: 


int sys_lseek (unsigned int fd,off_t offset,int origin〉// 调 整 文件 操作 
指针 ，offset 是 f_pos 癌 文件 尾 病 偏 移 字 市 数 


{ 
struct file * file; 
int tmp; 


if (fd>=NR_OPEN||! (file=current->filp[fd]) ||! (file-> 
f_inode) 


|! IS_SEEKABLE (MAJOR (file->f_inode- >i dev) ) ) 
return-EBADF; 


if (file->f_inode->i_pipe ) 


return-ESPIPE; 

switch (origin) { 

case 0: 

/以 文件 起 始 处 作为 起 点 ， 设 置 file- 之 f_pos 
if Coffset<0) return-EINVAL; 

file- >f_pos=offset; 

break; 

case 1: 

/将 file->f_pos 设 置 为 文件 当前 操作 位 置 

if (file->f_post+offset<0) return-EINVAL; 
file- >f_pos+=offset; 

break; 

case 2: 

/以 文件 未 尾 为 起 点 ， 设 置 file- 之 f_pos 

if ( (tmp=file->f_inode->i_sizetoffset) <0) 
retun-EINVAL; 


file- >f_pos=tmp; 


break; 
default: 


retun-EINVAL; 


return file- >f_pos; 





5.6.2 ”修改 文件 


现在 ， 假 设 hello.txt 是 硬盘 上 已 有 的 一 个 文 
件 ， 而 且 内 容 为 “hello,world”， 这 里 介绍 通过 
sys read () KZŽ sys_write () 函数 和 
sys_Iseek O 函数 联合 使 用 ， 把 数据 插入 hello.txt 文 
FEAR 


进程 的 程序 代码 如 下 : 


#include<fcentl.h> 

#include <stdio.h> 

#include <string.h> 

#define LOCATION 6 

int main (char argc,char ** argv) 


{ 


char str1[]="Linux"; 

char str2[1024]; 

int fd,size; 

memset (str2, 0, sizeof (str2) ) ; 
fd=open ("hello.txt", O_RDWR, 0644) ; 
lseek (fd,LOCATION,SEEK SET) ; 
strcpy (str2, strl) ; 

size=read (fd,str2+5, 6) ; 

lseek (fd,LOCATION,SEEK_ SET) ; 
size=write (fd,str2, strlen (str2) ) ; 
close (fd) ; 


return 0; 








这 段 程序 的 意思 是 将 “Linux” 这 个 字符 串 插入 


hello.txt 文 件 中 了 ， 最 终 hello.txt 文 件 中 的 内 容 应 该 





z= “hello, Linuxworld” - 
fd=open ("hello.txt", O_RDWR, 0644) ; 


open () 函数 将 对 应 sys_open() 函数 ， 打 开 
即将 操作 的 文件 。 

lseek (fd,LOCATION,SEEK SET) ; 

Iseek O KAŽ XT sys _Iseek () PKA; BAY 


中 选择 了 SEEK_SET， 表 明 要 将 文件 的 当前 操作 指 
针 从 文件 的 起 始 位 置 回 文件 尾 端 偏 移 6 字 节 。 








strcpy (str2, strl) ; 


这 一 行 是 将 “Linux” 这 个 字符 串 复 制 到 


str2[1024] 这 个 数组 的 起 始 位 置 处。 


size=read (fd,str2+5, 6) ; 


read () 函数 将 对 应 sys_read () pKa, E 
hello.txt 这 个 文件 的 内 容 ， 实 参 “str2+5” 表 示 要 把 从 
hello.txt 这 个 文件 读 出 来 的 内 容 复 制 到 str2 这 个 数组 
的 第 6 个 元 素 之 后 ， 相 当 于 与 Linux 这 个 字符 串 进 行 
本 拼接; 实 参 “6” 表 明 要 将 该 文件 的 6 个 字符 读 出 ， 
前 面 lseek (fd,LOCATION,SEEK_SET) ; 已 经 将 文 
件 的 当前 操作 指针 从 文件 的 起 始 位 置 癌 文件 尾 冰 侦 
移 了 6 字 市 ， 所 以 此 次 读 出 的 内 容 束 应 该 是 world， 
最 后 拼接 的 结果 是 Linuxworld。 


lseek (fd,LOCATION,SEEK_SET) ; 

















这 行 的 效果 和 前 面 调用 的 效果 一 样 ， 部 是 要 将 
文件 的 当前 操作 指针 从 文件 的 起 始 位 置 ， 辐 文件 尾 
站 侦 移 6 字 节 ， 以 此 确定 文件 的 写 入 位 置 。 








size=write (fd,str2, strlen (str2) ) ; 


write © 函数 将 对 应 sys_write © 函数 。 现 在 
要 将 str2 这 个 数组 中 的 “inuxworld” 字 符 串 写 入 
hello.txt 文 件 中 ， 而 且 写 入 位 置 就 是 从 文件 的 起 始 
SATA) Fein mA OF A KAIS A aR it 











ze “hello, Linuxworld” - 


实例 3: 关闭 此 文件 ， 之 后 将 其 从 文件 系统 中 


我 们 不 妨 将 5.6 节 中 的 程序 改写 ， 代 码 如 下 : 


#include <fcntl.h > 
#include<stdio.h> 
#include <string.h> 


#define LOCATION 6 


int main (char argc,char ** argv) 

{ 

char str1[]="Linux"; 

char str2[1024]; 

int fd,size; 

memset (str2, 0, sizeof (str2) ) ; 
fd=open ("/mnt/user/user1/user2/hello.txt", O_RDWR, 0644) ; 
Iseek (fd, LOCATION,SEEK SET) ; 
strcpy (str2, strl) ; 

size=read (fd,str2+5, 6) ; 

Iseek (fd, LOCATION,SEEK SET) ; 
size=write (fd,str2, strlen (str2) ) ; 
/关闭 文件 

close (fd) ; 

/删除 文件 

unlink ("/mnt/user/user1/user2/hello.txt") ; 


return 0; 


5.7 关闭 文件 





关闭 文件 对 应 的 是 打开 文件 ， 是 在 close() K 
数 中 完成 的 。 


5.7.1 “当前 进程 的 名 p 与 fle_table[64] 脱 钧 


close () 函数 最 终 上 映射 到 sys_close O 系统 调 
用 函数 去 执行 。 将 当前 进程 的 task_struct 中 的 
filp[20] 与 fle_table[64] 解 除 关 系 ， 情 景 如 图 5-13 上 所 


人 小。 
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执行 代码 如 下 : 





/代码 路 径 : fs/open.c: 

int sys_close (unsigned int fd) 
{ 

struct file * filp; 

if (fd>=NR_OPEN ) 
retumn-EINVAL; 


current->close_on_exec&=~ (1<<fd) ; 


if C! (filp=current->filp[fd]) ) 

retunn-EINVAL; 
current->filp[fdJ=NULL; // 将 当前 进程 filp[20] 中 的 fd 项 置 空 
if (filp->f_count==0 ) 

panic ("Close: file count is 0") ; 

if (--filp->f_count) /将 fle_table[64] 中 文件 句柄 引用 计数 递减 
return (0) ; 

iput (filp->f_inode) ; i A Sfile_table[64] Hit #4 

return (0) ; 


} 





值得 注意 的 是 ，file_table[64] 用 来 管理 操作 系 
统 中 所 有 正在 操作 的 文件 ， 此 时 其 他 进程 可 能 正在 
操作 hello.txt 文 件 ， 而 且 共 用 一 本 账 〈 这 种 情况 我 
们 在 5.2.1 节 中 讲解 close_on_exec 字 段 时 已 经 介 


绍 ) ， 因 此 ，fip->f count 只 被 减少 了 引用 计数 ， 





而 没有 被 简单 地 清空 。 当 然 ， 实 例 3 中 ， 没 有 进程 
操作 该 文件 ， filp- 之 f_count 将 递减 为 0， 
file_table[64] 中 的 这 个 表 项 变 成 了 空闲 项 。 





5.7.2 ”文件 i 节 点 被 释放 


文件 i 市 点 被 释放 的 过 程 是 : 先 要 对 i 点 的 各 
类 属性 进行 检查 ， 对 于 实例 3， 将 会 检查 到 i 和 点 的 
内 容 已 被 改变 ， 因 此 ， 要 先 将 i 节点 同 步 到 指定 缓冲 
KR; 人 然后， 递减 i 点 的 count， 使 1 点 的 引用 
计数 变 为 0， 这 个 i 节点 在 inode_table[32] 中 的 表 项 成 
为 空间 项 。 


执行 代码 如 下 : 


/代码 路 径 : fs/open.c: 

void iput (struct m_inode * inode) /释放 文件 i 节 点 
{ 

if C! inode) 


return; 


wait on inode (inode) ;Wi 节点 可 能 正在 被 使 用 ， 所 以 要 等 待 i 贡 
点 解锁 


if C! inode->i_count) // 如 果 即 将 释放 的 i 节点 引用 计数 为 0 


panic ("iput: trying to free free inode") ; 





if (inode->i_pipe) {W R IZIT Ae TE CEN A 
wake _up ( &inode->i_wait) ; 

if (--inode->i_count) 

return; 

free _page (inode->i_size) ; 

inode->i_count=0; 

inode- > i_dirt=0; 

inode- >i_pipe=0; 

return; 

} 

if C! inode->i_dev) {1/0 Rit BATES IRN KES AO 
inode->i_count--; /其 引用 计数 递减 


return; 


} 


if (S_ISBLK (inode->i_mode) ) {// 如 果 i 节 点 是 块 设备 文件 的 i 节 


sync _dev (inode->i_zone[0]) ; // 将 其 同步 到 外 设 上 


wait on inode (inode) ; 


repeat: 

if Ginode->i_count>1) {TV/i 节 点 的 引用 计数 大 于 1 
inode->i_count--; /递减 其 引用 计数 

return; 

} 

if C! inode->i_nlinks) {/ 如 果 i 节 点 的 链接 数 为 0 
truncate (inode) ; /释放 该 i 节 点 对 应 的 所 有 逻辑 块 
free_inode (inode) ; /释放 该 i 节 点 

return; 

} 


if Gnode->i_dirt) {/ 对 于 本 案例 ，i 节 点 内 容 已 经 改变 ， 同 步 该 i 节 
点 内 容 到 外 设 


write _inode (inode) ; /*we can sleep-so do again*/ 
wait _on_inode (inode) ; 


goto repeat; 


inode-> 之 ji_ count--;，VWi 节 点 引用 计数 递减 


return; 





5.8 删除 文件 





删除 文件 对 应 的 是 新 建文 件 。 删 除 文件 与 5.7 节 
中 关闭 文件 有 所 不 同 : 关闭 文件 只 是 解除 当前 进程 
与 hello.txt 文 件 在 fle_table[64] 中 指定 挂 接点 的 关 
系 ， 而 删除 操作 的 效果 表现 为 所 有 进程 都 无 法 访问 
到 hello.txt 这 个 文件 。 














小 幅 士 


在 Linux 0.11 中 ， 人 允许 利用 系统 调用 函数 
sys_link 将 “/mnt/user/zhang/chengxu.c” 的 路 径 名 指向 
路 径 名 为 “/mnt/user/hello.txt” 的 文件 ， 类 似 Windows 
下 的 快捷 方式 。 这 样 可 以 允许 不 同 用 户 建 并 自己 熟 
悉 的 路 径 名 和 文件 名 来 访问 他 想 访 问 的 文件 ， 而 不 

是 必须 要 记 住 最 原始 的 路 径 名 。 在 i 节 点 中 ， 利 用 

















i_nlinks 字 段 标 识 有 多 少 个 路 径 名 《目录 项 ) 链接 到 
一 个 文件 。 每 建立 一 个 这 样 的 链接 ，i_nlinks 就 增加 
1s 


5.8.1 对 文件 的 删除 条 件 进行 检查 


实例 3 中 unlink O 函数 最 终 映 射 到 
sys_unlink O 系统 调用 疯 数 去 执行 。 先 获取 
hello.txt 文 件 的 i 玉 点， 之 后 检查 i 贡 点 属性 信息 、 当 
前 进程 对 该 文件 的 操作 权限 等 信息 ， 确 定 该 文件 是 
否 能 够 删除 。 


执行 代码 如 下 : 
/代码 路 径 : fs/namei.c: 


int sys_unlink (const char * name ) 


{ 


const char * basename; 

int namelen; 

struct m_inode * dir, *inode; 
struct buffer_head * bh; 

struct dir_entry * de; 


if C! (dir=dir namei (name, &namelen, &basename) ) ) // 通 


过 分 析 路 径 名 ， 找 到 将 要 删除 文件 的 校 梢 i 点 
returnn-ENOENT; 
if C! namelen) {/ 如 果 namelen 为 0 
iput (dir) ; /释放 枝 梢 i 节 点 
retumn-ENOENT; 
} 


if (! permission (dir.MAY WRITE) ) {// 如 果 用 户 进 程 没 有 枝 梢 i 
节点 对 应 目录 文件 的 写 入 权限 





iput (dir) ; /释放 梳 梢 i 节 点 
return-EPERM; 
} 


bh=find_entry ( &dir,basename,namelen, &de) ; /获得 目标 文件 的 


目录 项 
if C! bh) { 
iput (dir) ; 
return-ENOENT; 
} 


if (! (inode=iget (dir->i_dev,de->inode) ) ) {// 获 得 要 删除 文 
件 的 i 节点 


iput (dir) ; 

brelse (bh) ; 

return-ENOENT; 

} 

if ( Cdir->i_mode&S_ISVTX) & &! suser () && 
current-> euid! =inode->i_uid& & 


current->euid! =dir->i_uid) {V/ 如 果 用 户 进 程 不 具备 删除 该 文件 的 
权限 


iput (dir) ; /释放 梳 梢 i 节 点 
iput (inode) ; // 释 放 目 标 文件 i 节点 


brelse (bh) ; 


return-EPERM; 

i 

if (S_ISDIR (inode->i_mode) ) {/ 如 果 目 标 文件 是 个 目录 文件 
iput (inode) ; /释放 目标 文件 i 节 点 

iput (dir) ; /释放 枝 梢 i 节 点 

brelse (bh) ; 

return-EPERM; 

} 


if C! inode->i_nlinks) {/ 如 果 该 i 节 点 的 链接 数 为 0 (没有 任何 进程 
与 之 存在 关联 ) ， 则 强行 置 1 


printk ("Deleting nonexistent file (%04x: %d) , %d\n", 
inode->i_dev,inode->i_num,inode->i_nlinks) ; 
inode->i_nlinks=1; 

} 

/以 下 为 具体 的 文件 删除 工作 

de- > inode=0; 


bh->b_dirt=1; 


brelse (bh) ; 

inode- > i_nlinks--; 

inode->i_dirt=1; 

inode- >i_ctime=CURRENT_TIME; 
iput (inode) ; 

iput (dir) ; 


return 0; 


5.8.2 ”进行 具体 的 删除 工作 


删除 hello.txt 文 件 的 情景 如 图 5-14 所 示 。 
Ox9FFFF 人 Ox3FFFFF OxSFFFFF OxFFFFFF 
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ETTET i 节点 位 图 清空 | | hello.txt 目 录 项 


KA} 5-14 删除 hello.txt 文 件 


其 体 执行 代码 如 下 : 


/代码 路 径 : fs/namei.c: 
int sys_unlink (const char * name) 


{ 


const char * basename; 

int namelen; 

struct m_inode * dir, *inode; 
struct buffer_head * bh; 


struct dir_entry * de; 


/以 下 为 具体 的 文件 删除 工作 
de->inode=0; /将 user2 目录 文件 中 hello.txt 目 录 项 清空 
bh->b_dirt=1; // 将 hello.txt 目 录 项 所 在 缓冲 块 b_dirt 置 1 


brelse (bh) ; 





inode->i_nlinks--; /目标 文件 链接 数 递减 ， 在 实例 3 中 ， 该 值 被 递 
减 为 0 


inode->i_dirt=1; // 目 标 文件 i 节点 i_dirt 置 为 1 
inode- > i_ctime=CURRENT_TIME; 

iput (inode) ; /释放 hello.txt 文 件 i 节 点 

iput (dir) ; /释放 user2 目录 文件 i 节 点 


return 0; 


值得 注意 的 是 ，iput O 函数 中 执行 的 情景 与 
5.7.2 节 中 的 有 所 区 别 。 


执行 代码 如 下 : 


/代码 路 径 : fs/open.c: 


void iput (struct m_inode * inode) /释放 目标 文件 i 节 点 


repeat: 

if (inode->i_count>1) {Wi 节点 的 引用 计数 大 于 1 
inode->i_count--; /递减 其 引用 计数 

return; 

} 


if ©! inode->i_nlinks) {/ 此 时 链接 数 已 递减 为 0， 说 明 没 有 进程 与 
该 节点 存在 关联 


truncate (inode) ; // 根 据 i 节 点 中 i_zone[9]， 释 放 文 件 在 硬盘 上 占据 
的 逻辑 块 


free_inode (inode) ; // 将 i 节点 位 图 中 对 应 的 位 清空 ， 并 将 
inode_table[32] 中 的 表 项 清空 


return; 


} 





if Gnode->i_dirt) {/ 对 于 本 案例 ，i 节 点 内 容 已 经 改变 ， 同 步 该 i 节 
点 内 容 到 外 设 


write _inode (inode) ; /*we can sleep-so do again*/ 
wait _on_inode (inode) ; 

goto repeat; 

} 

inode->i_count--; Vi 节点 引用 计数 递减 

return; 


} 





WH truncate O 函数 ， 根 据 文件 i 节 点 中 
i_zone[9] 释 放 文 件 在 外 设 上 的 所 有 逻辑 块 。 执 行 代 





人 码 如 下 : 





/代码 路 径 : fs/open.c: 

void truncate (struct m_inode * inode) 
{ 

int i; 


if C! (S ISREG Cinode->i_mode) ||S_ISDIR (Cinode-> 
i-mode) ) ) // 如 果 hello.txt 文 件 不 是 普通 文件 或 目录 文件 





retum; /直接 返回 
for (i=0; i<7; i++) 
if (inode->i_zone[i]) { 


free block (inode->i_dev,inode->i_zone[i]) ; /将 i zone 前 7 项 逻 
辑 块 在 逻辑 块 位 图 上 对 应 的 位 清 零 





inode->i_zone[i|=0; 
} 


free _ind (inode->i_dev,inode->i_zone[7]) ; // 将 一 级 间接 块 自身 
占用 的 逻辑 块 以 及 它 管理 的 逻辑 块 在 逻辑 块 位 图 上 对 应 的 位 清 零 





free_dind (inode->i_dev,inode->i_zone[8]) ; // 将 二 级 间接 块 自身 


占用 的 逻辑 块 以 及 它 管 理 的 逻辑 块 在 逻辑 块 位 图 上 对 应 的 位 清 


ay 





inode- > i_zone[7|=inode->i_zone[8]|=0; 


inode->i_size=0; 


inode->i_dirt=1; 


inode- >i_mtime=inode->i_ctime=CURRENT_TIME; 





调用 free_inode O 函数 ， 清 衬 i 节 点 位 图 和 ij 
AR. 


执行 代码 如 下 : 





/代码 路 径 : fs/bitmap.c: 


void free_inode (struct m_inode * inode) 


struct super_block * sb; 


struct buffer_head * bh; 


if C! inode) //M RITAN E 

return; 

if C! inode->i_dev) {V/ 如 果 设 备 号 为 0 
memset (inode, 0, sizeof (*inode) ) ; 


return; 


} 





if Gnode->i_count>1) {/ 如 果 i 点 被 多 次 引用 

printk ("trying to free inode with count=%d\n", inode->i_count) ; 
panic ("free_inode") ; 

} 

if Cinode->i_nlinks) /如 果 i 节 点 还 与 进程 保持 关系 

panic ("trying to free inode with links") ; 


if C! (sb=get_super (inode->i_dev) ) ) /如 果 i 节 点 所 在 文件 系 
统 的 超级 块 不 存在 


panic ("trying to free inode on nonexistent device") ; 


= 


panic ("trying to free inode 0 or nonexistant inode") ; 


if (! (bh=sb->s_imap[inode->i_num>>13]) ) // 如 果 该 i 节点 对 
应 的 i 市 点 位 图 不 存在 


panic ("nonexistent imap in superblock") ; 


if (clear_bit (inode->i_num&8191, bh->b_data) ) /清空 i 节 点 位 
图 中 与 hello.txt 文 件 i 节 点 对 应 的 位 





printk ("free_inode: bit already cleared.\n\r") ; 


bh->b_dirt=1; // 将 i 节点 位 图 所 在 缓冲 块 的 b_dirt 置 1 (表示 需要 同 


memset (inode, 0, sizeof (*inode) ) ; // 将 i 节点 表 中 hello.txt 文 件 
i 节 点 的 表 项 清 零 


} 











操作 系统 将 被 清空 的 i 节 点 位 图 、 逻 辑 块 位 
图 、i 节 点 表 项 信息 ， 同 步 到 硬盘 上 并 未 清除 对 应 
的 逻辑 块 中 的 内 容 ) 。 它 们 都 是 hello.txt 文 件 的 管 
理 信息 ， 这 些 信息 不 存在 了 ， 即 便 该 文件 的 逻辑 块 
内 容 还 存储 在 硬盘 上 ， 也 无 法 再 访问 到 该 文件 。 











5.9 本章 小 结 


本 章 通过 几 个 实例 程序 ， 详 细 讲 解 了 与 文件 操 
作 相关 的 代码 和 知识 。 





操作 系统 对 文件 的 一 切 操作 ， 都 可 以 分 为 两 个 
方面 : 对 super_block、d_super_block、m_inode、 
d_inode、i 节 点 位 图 、 逻 辑 块 位 图 这 类 文件 管理 信 
恩 的 操作 以 及 对 文件 数据 内 容 的 操作 。 新 建 、 打 
开 、 关 闭 、 删 除 文件 属于 对 文件 管理 信息 的 操作 。 
读 文 件 、 写 文件 和 修改 文件 则 主要 是 操作 文件 数据 


内 容 。 














PRE MIF E PE St ee VB A a eS CE 
的 关系 链条 ， 和 链条 的 主干 为 task_struct 中 的 *filp[20] 
inode_table[32]. 进程 就 可 以 








file_table[64] 


治 看 关系 链条 ， 依 托 缓冲 区 与 硬盘 进行 数据 交互 。 
当头 系 链 条 解除 后 ， 进 程 则 不 再 具备 操作 指定 文件 
的 能 力 。 如 果 文 件 管理 信息 个 更 改 ， 则 操作 系统 要 
将 此 更 改 落实 在 便 盘 上 上， 以免 失去 对 文件 数据 内 容 
的 控制 。 








第 6 章 MHP RES AITE E 





MARERE RAN E EREN ELEKT BED 
同时 运行 多 个 程序 。 运 行 中 的 程序 被 称 为 进 

程 。 在 类 UNIX 操 作 系 统 的 设计 者 看 来 ， 操 作 系 统 
的 核心 束 是 进程 。 所 谓 的 操作 系统 束 是 右 干 个 正在 
运行 、 操 作 的 进程 构成 的 系统 。 投 照 这 个 思路 ， 进 
程 的 创建 只 可 能 由 进程 承担 ， 也 就 是 父子 进程 创建 
机 制 。 在 任何 情况 下 ， 至 少 得 有 一 个 进程 留守 ， 这 
就 是 进程 0。 与 计算 机 使 用 者 交互 也 是 由 专门 的 进 
程 〈 即 shell) AR. Z, U ENHE. 











年 一 台 计 算 机 只 有 一 个 CPU、 一 个 CPU 只 有 一 
个 核 的 时 代 ， 多 个 进程 同时 运行 的 本 质 是 分 时 轮流 
运行 。 确 保 多 进程 同时 正确 运行 ， 就 必须 解决 两 个 


关键 问题 ， 一 个 是 如 何 防 止 多 进程 同时 运行 时 ， 一 
个 进程 的 代码 、 数 据 不 会 被 其 他 进程 下 接 访 问 、 禾 
mis 为 一 个 是 如 何 做 到 多 进程 有 厅 轮 流 执 行 。 


第 一 个 问题 涉及 进程 保护 ， 第 二 个 问题 涉及 进 


程 调度 。 


6.1 ”线性 地 址 的 保护 


在 Intel IA-32 架 构 中 ， 进 程 保 护 体 现在 对 进程 
内 存 空间 的 保护 ， 进 程 内 存 空间 的 保护 是 由 线性 地 
址 保护 、 物 理 地 址 保护 实现 的 。 


现在 计算 机 基本 上 都 治 用 译 : 诡 依 曼 体 系 。 这 
个 体系 中 ， 指 令 、 数 据 都 存储 在 同样 的 内 存 中 。 内 
存 设计 为 随机 访问 存储 器 CRAM) ， 也 就 是 说 可 以 
在 内 存 空间 任意 恋 、 写 数据 或 指令 。 在 没有 你 护 模 
式 之 前 ， 从 物理 内 存 的 角度 看 ， 不 同 用 户 程 序 的 代 
人 码 和 数据 没有 物理 上 的 大 寞 ， 痢 由 一 连 串 的 0 14 
成 。 至 于 什么 地 方 可 以 读 与 ， 什 么 地 方 不 可 以 读 
写 ， 并 没有 明确 的 物理 限制 ， 没 有 什么 机 制 能 阻拦 
不 同 用 户 程 序 间 的 相互 干扰 。 











文 持 实时 多 任务 首先 遇 到 的 问题 就 是 ， 如 何 保 
证 每 个 进程 在 运行 过 程 中 能 够 与 其 他 进程 互 不 干 
扰 ， 也 就 是 保证 进程 之 间 不 能 相互 访问 代码 、 数 
拓 ， 更 不 能 相互 窗 畜 人 代码、 数据。 


6.1.1 ”进程 线性 地 址 空间 的 格局 


Intel IA-32 CPU 染 构 设 计 为 ， 只 要 打开 PE、 
PG， 上 所 有 在 计算 机 中 运行 的 程序 使 用 的 只 能 是 线性 
地 址 ， 然 后 将 线性 地 址 转换 到 具体 的 物理 地 址 ， 转 
换 是 由 CPU 中 的 MMU 根 据 页 目录 表 、 页 表 、 页 的 
设 定 ， 由 硬件 目 动 实现 的 。 





线性 地 址 就 是 CPU 可 以 寻 址 的 地 址 。 在 IA-32 
体系 架构 下 ，32 位 地 址 总 线 的 线性 地 址 空间 范围 是 
0~-4GB。 为 了 在 线性 地 址 层面 分 隔 进程 的 内 存 空 





fA], Linux 0.11 采 取 的 总 体 策略 是 将 4 GB 的 线性 地 
址 空间 分 成 互 不 重 老 的 64 等 份 ， 每 份 64 MB， 每 个 
进程 一 份 ， 最 多 同时 开启 64 个 进程 。 要 求 进程 无 论 
怎样 执行 ， 都 不 能 跨越 起 点 和 终点 。 这 样 进程 的 线 
性 地 址 空间 彼此 不 重合 ， 实 现在 线性 地 址 层面 对 进 
程 内 存 空间 的 保护 。 这 是 整个 Linux 0.11 中 线性 地 
址 空间 设计 的 最 大 格局 ， 所 有 和 针对 线性 地 址 空间 方 
面 的 设计 都 服从 于 这 个 格局 。 





task[64] 是 这 个 格局 的 基点 ， 所 有 进程 登记 
注销 都 只 由 它 统 一 管理 。 每 个 进程 只 有 在 task[64] 中 
定位 后 ， 才 能 在 线性 地 址 空间 中 进行 安排 。 操 作 系 
统 根据 task[64] 的 项 号 nr 在 GDT 中 找到 对 应 的 LDT。 
task[64] 起 到 了 控制 进程 总 量 ， 关 联 进 程 与 GDT 中 
的 LDT、TSS 的 关键 作用 。 








虽然 在 操作 系统 代码 中 规划 出 了 64 等 分 4 GB 线 
性 地 址 空间 的 格局 ， 但 仅 此 能 舍 对 进程 跨越 64 MB 
线性 地 址 空间 的 访问 做 出 有 效 的 阻拦 ? 也 就 是 说 ， 
能 人 否 确保 进程 的 线性 地 址 空间 彼此 不 重 登 ? 


操作 系统 内 核 虽然 做 出 了 进程 的 线性 地 址 空间 
的 格局 ， 但 却 无 法 仅仅 依 徘 算法 、 控 制 逻辑 阻拦 进 
程 的 跨 界 访问 。 原 因 是 CPU 一 次 只 能 执行 一 条 指 
令 ， 执 行进 程 的 指令 就 不 能 执行 内 核 的 指令 。 所 
以 ， 不 论 内 核 有 多 么 深沉 的 控制 越界 算法 ， 当 进程 
执行 路 界 访问 时 ， 内 核 的 控制 越界 算法 都 不 在 执行 
状态 ， 无 法 控制 进程 的 越界 行为 。 





软件 的 方法 无 效 ， 那 只 能 依靠 便 件 方法 。 


Intel IA-32 架 构 专 门 设计 了 基于 CPU 便 件 的 控 


制 进程 访问 越界 的 方法 。 


6.1.2” 段 基 址 、 段 限 长 、GDT、LDT、 特 
权 级 


Intel IA-32 架 构 对 进程 线性 地 址 空间 的 保护 是 
基于 段 的 。 





历史 上 ， 由 于 函数 (了 于 程序 ) 链接 的 需要 ， 发 
明了 在 内 存 中 划分 段 的 方法 ， 所 有 程序 的 设计 都 是 
基于 段 的 。 线 性 地 址 空间 是 一 维 的 ， 所 以 只 要 看 住 
一 段 线 性 地 址 空间 的 两 头 ， 让 程序 在 段 空 间 里 执 
ÍT, ANF, EMDATHAA ME, ether 
扰 到 其 他 进程 。 


Intel 早 期 的 CPU 为 了 降低 成 本 ， 只 设计 了 看 住 
段 起 始 位 置 的 段 头 寄存 器 ， 并 没有 设计 看 住 段 结 
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架构 在 段 〈 头 ) 寄存 器 中 设计 了 段 限 长 ， 等 效 于 设 
计 了 段 尾 寄存 器 ， 用 一 个 寄存 器 巧妙 地 起 到 了 两 个 
寄存 器 的 作用 。 


Linux 0.11 操 作 系统 利 用 Intel [A-32 CPU 架构 提 
供 的 段 基 址 、 段 限 长 有 效 地 阻拦 了 段 内 跳 转 中 有 意 
无 意 的 越界 行为 。 比 如 ，jmp X， 如 果 这 个 X 很 大 ， 
超过 段 限 长 ， 硬 件 会 阻止 类 似 指 令 的 执行 ， 并 立即 
报 出 GP 错误 。 


对 于 进程 代码 中 跨越 段 边界 的 jmp， 段 基 址 、 
段 限 长 不 能 阻拦 ，Linux 0.11 是 用 什么 方法 拦截 非 
法 跨越 进程 边界 的 访问 动作 的 呢 ? 








非法 跨越 进程 边界 有 两 种 情况 : 一 种 是 从 一 个 


进程 非法 器 越 到 为 一 个 进程 ， 男 一 种 是 从 一 个 进程 
非法 跨越 到 内 核 。 


1. 从 一 个 进程 非法 跨越 到 为 一 个 进程 


从 一 个 进程 用 jmp 指 令 非法 路 越 到 另 一 个 进 
程 ， 从 IA-32 架 构 的 角度 看 ， 两 个 进程 的 代码 段 都 
是 3 特权 级 ，Linux 0.11 的 所 有 进程 都 安排 在 一 个 4 
GB 的 线性 地 址 空间 ， 所 以 允许 这 个 ljmp 指 令 的 执 
行 ， 段 基 址 、 段 限 长 此 时 起 不 到 阻拦 非法 越界 的 作 
FAQ. Linux 0.11 采 用 的 是 通过 LDT 的 设计 ， 阻 拦 非 
法 jmp 指 令 的 执行 。 








第 2 章 中 讲解 了 Linux 0.11 的 GDT、LDT 的 设 
计 。64 个 进程 ， 每 个 进程 占用 GDT 的 两 项 ， 一 项 是 


TSS， 另 一 项 就 是 LDT。 所 有 进程 的 LDT 段 的 设计 


是 完全 一 样 的 ， 每 个 LDT 都 有 3 项 ， 都 是 第 一 项 为 
空 ， 第 二 项 是 进程 代 但 段 ， 第 三 项 是 进程 数据 段 。 
当 一 个 进程 的 代码 中 有 非法 的 路 进程 跳 转 的 指令 
时 ， 比 如 ，]ljmp 指 令 执行 时 ， 该 指令 后 面 的 操作 数 
是 “ 段 内 偏 移 段 选择 子 ”。 代 码 段 的 段 选 择 子 存储 在 
CS 里 面 。 仔 细 考 察 一 下 ， 可 以 看 出 Linux 0.11 中 所 
有 进程 的 CS 的 内 容 都 是 一 样 的 ， 用 二 进 制 表 示 的 形 
式 都 是 0000000000001111。CPU 硬 件 无 法 识别 是 哪 
一 个 进程 的 CS， 也 就 无 法 选择 段 描 述 符 ， 只 能 默认 
使 用 当前 LDT 中 提供 的 段 描述 符 ， 所 以 类 似 jmp 这 
样 的 段 间 跳 转 指令 ， 无 论 后 面 操作 数 怎么 号， 都 无 
法 跨越 当前 进程 的 代码 段 ， 也 就 无 法 进行 段 间 跳 
Fe, WA ARE DUT SIAR. HEH WL, Linux 
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试想 一 下 ， 如 果 Linux 0.11 不 是 这 样 的 设计 ， 
而 是 将 所 有 进程 的 代码 段 描述 符 都 直接 写 到 GDT 
中 。 对 所 有 进程 共用 一 个 4 GB 线性 地 址 空间 的 
Linux 0.11 而 言 ， 进 程 代码 中 的 非法 跨越 进程 的 跳 
转 指令 就 可 以 不 受阻 拦 地 执行 。 


按照 这 个 思路 ， 结 合 第 2 章 讲 解 的 内 容 仔 细 思 
考 ， 可 以 发 现 ，Linux 0.11 在 防止 非法 跨越 进程 的 
长 跳 转 指令 方面 ， 略 显 粗 糙 。 第 2 章 中 讲解 过 TSS 
段 、LDT 段 的 段 限 长 是 一 样 的 ， 都 是 104 B。 这 个 
段 限 长 对 TSS 来 说 是 合适 的 ， 对 LDT 来 说 就 太 长 
了 。LDT 只 有 3 项 ， 每 项 8 字 市 ， 一 共 只 有 24 B。 从 
进程 0 的 INIT_TASK 可 以 看 出 LDT 后 和 面 案 跟着 TSS， 
这 个 数据 结构 在 父子 进程 创建 机 制 创建 进程 时 会 向 
后 遗传 ， 所 有 进程 的 task_struct 里 面 的 LDT、TSS 都 


征 一 样 的 。 如 宁 进 程 代 码 中 有 这 样 的 代码 : 


ljmp 偏 移 ，CS (CS 的 值 是 0000000000111111， 即 3 特权 级 ，LDT 表 
中 的 第 8 项 ) 


这 样 的 指令 仍然 会 在 段 内 执行 ， 而 从 LDT 基 址 
往 后 俩 移 到 “第 8 项 ”的 数据 内 容 不 可 预知 ， 出 现 的 
错误 也 不 可 预知 。 但 无 论 是 哪些 错误 ， 都 无 法 路 越 
进程 的 边界 ， 也 无 法 改变 LDT，。 





有 反 过 来 看 这 个 问题 ， 残 算 非 法 的 进程 跨越 的 长 
跳 转 指令 能 够 执行 ， 也 只 是 代码 跳 转 过 去 ， 数 据 
段 、 栈 段 都 没 跟 着 变换 过 去 。 代 码 在 一 个 进程 的 段 
中 执行 ， 数 据 和 栈 却 在 男 一 个 进程 中 ， 在 这 种 条 件 
下 ， 代 码 通常 会 执行 死 了 。 从 这 个 反 癌 角度 ， 我 们 
可 以 更 深刻 地 领 司 到 为 什么 正常 的 进程 切换 ， 是 用 


TSS 将 代码 段 、 数 据 段 、 栈 全 部 变换 过 去 的 。 要 想 
进行 正确 的 进程 切换 ， 必 须 将 进程 的 执行 状态 成 
套 、 完 整地 保存 ， 并 成 套 、 完 整地 切换 到 为 一 个 进 
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以 上 讲解 的 古 用 ljjmp 从 一 个 进程 非法 跨越 到 为 
一 个 进程 的 情况 ， 下 面 讨论 用 ljmp 从 一 个 进程 非法 
跨越 到 内 核 的 情况 。 


2. 从 一 个 进程 非法 跨越 到 内 核 


用 户 进 程 代码 段 的 特权 级 都 是 3， 内 核 的 特权 
级 是 0，Intel IA-32 架 构 茶 止 代 码 跨 越 特 权 级 长 跳 
转 ，3 特 权 级 长 跳 转 到 0 特权 级 是 茶 止 的 ，0 特 权 弘 
长 跳 转 到 3 特权 级 同样 是 蔡 止 的 。 所 以 这 样 的 非法 
长 跳 现 指令 会 被 CPU 便 件 有 效 阻拦， 进程 与 内 核 的 





边界 得 到 有 效 的 保护 。0 特 权 级 的 内 核 代 码 可 以 访 
问 3 特权 级 的 进程 数据 ，3 特 权 级 的 进程 代码 不 能 访 
OAPAMA A WERE CES. CHOSE EAR ce TE Ae A EA 
便 件 树 止 。 








从 上 面 的 讲解 可 以 看 出 ，Linux 对 GDT、LDT 
的 设置 ， 有 效 地 阻止 了 非法 跨越 进程 边界 的 访问 。 
用 户 进程 是 否 可 以 设置 GDT、LDT， 以 使 自己 写 的 
非法 跨越 边界 的 指令 能 够 执行 ? 答案 是 否定 的 ， 因 
为 Linux 0.11 将 GDT、LDT 这 两 个 数据 结构 设置 在 
内 核 数 据 区 ， 是 0 特权 级 的 ， 只 有 0 特权 级 的 代码 才 
能 修改 设置 GDT、LDT。 








那么 ， 用 户 进程 是 否 可 以 在 目 己 的 数据 段 按 照 
自己 的 意愿 重新 做 一 套 GDT、LDT 呢 ? 如 果 仅 仅 是 
形式 上 做 一 套 和 GDT、LDT 一 样 的 数据 结构 ， 没 有 





什么 不 可 以 ， 但 起 不 到 真正 的 GDT、LDT 的 作用 。 
真正 起 作用 的 GDT、LDT 是 CPU 硬 件 认 定 的 。 这 两 
个 数据 结构 的 首 地 址 必须 挂 接 在 CPU 中 的 GDTR、 
LDTR 上 ， 运 行 时 ，CPU 只 认 GDTR、LDTR 指 向 的 
数据 结构 ， 其 他 数据 结构 就 算 起 名 字 叫 GDT、 
LDT,CPU 也 一 概 不 认 。Linux 0.11 内 核 在 进程 的 初 
始 化 阶段 ， 就 将 GDT、LDT 挂 接 到 了 CPU 中 的 
GDTR、 LDTR 上 TJ. 











用 户 进 程 能 否 也 将 自己 制作 的 GDT、LDT 挂 接 
到 GDTR、LDTR 上 ? 答案 是 否定 的 ， 因 为 对 





GDTR、LDTR 进 行 设 置 的 指令 LGDT、LLDT 只 能 
在 0 特权 级 下 执行 。 





到 此 为 止 ， 我 们 可 以 看 清楚 Linux 操 作 系 统 依 
托 Intel IA-32 架 构 设 计 的 段 基 址 、 上 段 限 长 、GDT、 


LDT、 特 权 级 这 一 整套 人 硬件 保护 机 制 ， 在 线性 地 址 
层面 建立 了 牢固 的 进程 间 、 进 程 与 内 核 间 的 边界 ， 
有 效 地 防止 了 非法 跨越 边界 的 操作 。 





进程 间 合 理 的 跨越 边界 的 数据 沟通 如 何 解 决 ? 
进程 间 切 换 及 进程 需要 跨越 边界 获得 操作 系统 内 核 
合理 的 支持 应 该 如 何 操作 呢 ? 








第 一 个 问题 ， 将 在 第 8 章 中 讲解 。 
第 二 个 问题 ， 涉 及 TSS 及 CPU 硬件 的 中 断 门 。 


Linux 0.11 中 的 进程 间 切 换 是 在 schedule〈) 中 
完成 的 ， 其 技术 路 线 很 像 任 务 门 〈 但 没有 用 任务 
门 )， 是 在 0 特权 级 下 ， 用 ljmp 指 令 直接 跳 转 到 要 
切换 的 进程 的 TSS (指令 跳 转 到 数据 ， 似 乎 有 些 奇 
怪 ， 实 际 上 后 面 有 CPU 硬件 做 了 大 量 的 工作 ， 最 终 


跳 转 到 目标 进程 的 代码 段 }) ， 实 现 进 程 切换 的 。 


进程 要 想 获 得 内 核 的 文 持 《如 读 盘 ) ，Intel 
IA-32 架 构 提 供 了 中 断 门 技术 ， 文 持 由 3 特权 级 代码 
段 翻转 到 0 特权 级 代码 段 执行 。 注 意 ， 这 个 翻转 不 
是 普通 的 跳 转 ， 需 要 经 过 CPU 的 硬件 中 断 机 制 ， 不 
同 于 平坦 的 、 普 通 的 内 存 寻 址 跳 转 。 获 得 内 核 的 文 
持 后 ， 再 由 iret 指 令 经 过 CPU 硬 件 ， 从 0 特权 级 的 内 
核 代码 段 翻转 到 3 特权 级 的 进程 代码 段 继续 执行 。 


6.2 分 页 


6.2.1 ”线性 地 址 映射 到 物理 地 址 


前 面 我 们 介绍 了 线性 地 址 ， 线 性 地 址 最 终 要 转 
换 为 物理 地 址 。Linux 0.11 在 盒 速 前 打开 了 PG， 线 
性 地 址 是 通过 页 目录 表 一 一 页 表 一 一 页 面 三 级 映射 
模式 ， 最 终 落 实 到 物理 地 址 的 。 代 码 如 下 : 








/代码 路 径 : boot/head.s: 

xorl %eax, Y%eax/*pg_dir is at Ox0000*/ 
movl %eax, %cr3/*cr3-page directory start*/ 
movl %cr0, %eax 

orl $0x80000000, %eax 


movl %eax, %cr0/*set paging (PG) bit*///i CRO, 4JIFPG 


ret/*this also flushes prefetch-queue*/ 





通过 第 1 重 的 介绍 我 们 得 知 ， 在 打开 PG 前 ， 已 
经 打开 了 PE， 转 入 保护 模式 运行 。CPU 的 硬件 默 
认 ， 在 保护 模式 下 ， 如 果 没 有 打开 PG， 线 性 地 址 恒 
等 映射 到 物理 地 址 ， 如 果 打 开 了 PG， 则 线性 地 址 需 
要 通过 MMU 进 行 解析 ， 以 页 目录 表 、 页 表 、 页 面 
的 三 级 映射 模式 映射 到 物理 地 址 。 


保护 模式 下 ， 是 否 打 开 PG 对 线性 地 址 映射 到 
物理 地 址 的 影响 如 图 6-1 所 示 。 
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图 6-1 PG 影响 映射 的 情景 


Linux 0.11 为 什么 要 打开 PG 呢 ?6.1 市 我 们 已 经 
介绍 过 ，IA-32 体 系 下 ， 线 性 地 址 空间 范围 是 0 一 4 
GB， 己 经 修 64 个 进程 平分 了 ， 各 自 64 MB。 如 果 不 
打开 PG， 根 据 CPU 默 认 的 规则 ， 线 性 地 址 就 只 能 
接 映射 到 物理 地 址 ， 而 Linux 0.11 最 大 只 能 支持 16 
MB 的 物理 内 存 ， 显 然 绝 大 部 分 线性 地 址 空间 都 作 
废 了 ， 无 法 支持 多 进程 同时 执行 ， 所 以 要 打开 PG， 


将 进程 的 线性 地 址 ， 根 据 物 理 内 存 的 实际 承载 能 
力 ， 有 秩序 地 映射 到 物理 地 址 上 ， 以 此 文 持 多 进程 
执行 。 


线性 地 址 映射 到 物理 地 址 的 过 程 是 这 样 的 ， 每 
个 线性 地 址 值 是 32 位 ，MMU 按 照 10 一 10 一 12 的 长 
度 ， 来 识别 线性 地 址 值 ， 并 分 别 将 其 解析 为 页 目录 
WS. WARS. TAS, eA RY BP 
址 。 这 个 过 程 的 示意 图 如 图 6-2 所 示 。 
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图 6-2 页 目录 表 、 页 表 、 页 面 的 映射 情景 


Linux 0.11 中 只 有 一 个 页 目录 表 ，CR3 中 存储 看 
页 目录 表 的 基 址 ， 这 样 MMU 解 析 线 性 地 址 时 ， 先 
找 CR3 中 的 信息 ， 这 样 就 可 以 找到 页 目录 表 。 只 有 
找到 了 页 目录 表 ， 才 会 有 下 面 的 解析 ， 所 以 在 打开 
PG 前 ， 最 重要 的 事情 是 要 把 页 目录 表 的 基 址 载 入 
CR3。 代 码 如 下 : 














/代码 路 径 : boot/head.s: 

stosl/*fill pages backwards-more efficient: -) */ 
subl $0x1000, %eax 

jge 1b 


xorl %eax, %eax/*pg_dir is at Ox0000*/ 





movl %eax, %cr3/*cr3-page directory start*/// 将 页 目录 表 的 其 址 0 载 
入 CR3 


movl %cr0, %eax 


orl $0x80000000, %eax 


movl %eax, %cr0/*set paging (PG) bit*//W/ 设 置 CRO0， 打 开 PG 
ret/*this also flushes prefetch-queue*/ 


ee 





通过 解析 线性 地 址 值 中 表示 页 目录 项 的 10 位 数 
据 ， 束 可 以 在 页 目录 表 中 找到 页 目录 项 。 页 目录 项 
里 面 记录 着 页 表 的 物理 地 址 值 ， 可 以 据 此 找到 页 表 
的 位 置 ， 再 通过 解析 线性 地 址 值 中 表示 页 表 项 的 10 
位 数据 找到 页 表 项 。 同 样 ， 页 表 项 中 记录 大 表示 页 
面 的 物理 地 址 值 ， 可 以 据 此 找到 页 面 的 位 置 ， 之 后 
再 分 析 线 性 地 址 值 中 表示 页 内 仿 移 的 12 位 物理 地 址 
值 ， 最 终 束 找 到 了 物理 地 址 。 























页 目录 表 、 页 表 、 页 面 的 三 级 映射 关系 是 由 内 
核 建立 的 。 内 核 建立 映射 天 系 时 ， 可 以 让 不 同 的 线 
性 地 址 映射 到 不 同 的 物理 地 址 ， 也 可 以 映射 到 相同 





的 物理 地 址 。 下 面 我 们 先 以 进程 执行 时 分 页 为 例 ， 
介绍 不 同 的 线性 地 址 映射 到 不 同 的 物理 地 址 的 情 
况 。 


6.2.2 ”进程 执行 时 分 页 


分 页 以 及 映射 物理 页 面 时 ， 内 核 需要 做 到 以 下 
JL 


1) 只 能 从 空 用 页 面 中 分 配 新 页 面 ， 不 能 分 配 
其 他 进程 正在 使 用 的 页 面 ， 干 扰 其 他 进程 的 执行 ， 
更 不 能 将 内 核 区 域 的 页 面 挪 作 他 用 。 
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mem_map 结 构 对 1 MB 以 上 的 内 存 空间 进行 分 页 管 
理 ， 而 且 主 内 存 中 每 个 页 面 的 引用 计数 都 被 初始 化 
为 0， 即 默认 为 空 几 页 面 。 代 码 如 下 : 








/代码 路 径 : mm/memory.c: 


#define LOW_MEM 0x100000//1 MB 

#define PAGING_MEMORY (15*1024*1024) 

#define PAGING_PAGES (PAGING_MEMORY>>12) // 页 面 数量 
#define MAP_NR (addr) ( ( (addr) -LOW_MEM) >>12) 
#define USED 100 

void mem_init (long start_mem,long end_mem ) 

{ 

int i; 

HIGH _MEMORY=end_mem; 

for (i=0; i<PAGING_PAGES; i++) 

mem _map[i]=USED; 

i=MAP_NR (start_mem) ; 

end _mem-=start_mem; 

end _mem > >=12; 

while Cend_mem-->0) /能 够 占用 的 页 面 ， 引 用 计数 设置 为 0 


mem _map[i++]=0; 


为 进程 实际 分 配 页 面 时 ， 只 在 mem_map 的 控制 
江 围 内 操作 ， 而 且 只 选择 引用 计数 为 0 的 页 面 。 如 
东 申 请 到 ， 融 将 引用 计数 置 1， 防 止 挪 作 他 用 ， 引 
起 混乱 。 代 人 码 如 下 : 





/代码 路 径 :， mm/memory.c: 


#define MAP_NR (addr) ( ( (addr) -LOW_MEM) >>12) 
unsigned long get_free_page (void) 


{ 


register unsigned long__res asm ("ax") ; 


__asm__ ("std; repne; scasbn\t"// 只 选择 引用 计数 为 0 的 页 面 
"jne 1f\n\t" 

"movb$1, 1 (%%edi) nt 申请 后 ， 引 用 计数 置 为 1 
"sall$12, %%ecx\n\t" 


"addl%2, %%ecx\n\t" 


: "0" (0) , "i" CLOW_MEM) , "c" (PAGING PAGES) , 


"D" (mem_map+PAGING_PAGES-1) // 在 mem_map[] 的 管理 范围 内 
查找 空闲 页 


: "di", EX "dx" ) : 


return res; 
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续 执 行 。 代 人 码 如 下 : 





/代码 路 径 : kernel/fork.c: 

int copy_process Cint nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 

long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss ) 


struct task_struct * p; 
int i; 
struct file * f; 


p= (struct task_struct *) get_free_page © ; /为 进程 task_struct 和 内 
核 栈 分 配 空闲 页 面 


if C! p) /如 果 分 配 不 到 页 面 ， 就 返回 错误 信息 ， 终 止 程序 执行 
return-EAGAIN; 
task[nr]=p; 


*p=*current; /*NOTE! this doesn't copy the supervisor stack*/ 


ee 


int copy_page_tables (unsigned long from,unsigned long to,long size) 
{ 

unsigned long * from_page_table; 

unsigned long * to_page_table; 

unsigned long this_page; 

unsigned long * from_dir, *to_dir; 


unsigned long nr; 


if (! (1&*from_dir) ) 
continue; 
from _page_table= (unsigned long *) (Oxfffff000&*from_dir) ; 


if (C! (to_page_table= (unsigned long *) get free page © ) ) // 
为 复制 页 表 申 请 空闲 页 面 


return-1; /*Out of memory,see freeing*/// 如 果 申 请 不 到 ， 返 回 -1， 终 
止 程序 执行 


*to_dir= ( (unsigned long) to_page_table) |7; 


nr= (from==0) ?0xA0: 1024; 


ee 


if (share_page (tmp) ) 
return; 


if (! (page=get_free_page () ) ) /为 进程 加 载 程 序 申 请 空闲 页 


oom ©) ; /如 果 申 请 不 到 ， 就 强行 让 进程 退出 
/*remember that 1 block is used for header*/ 
block=1+tmp/BLOCK_SIZE; 

for (i=0; i<4; block++, i++) 

nr[iJ=bmap (current->executable,block) ; 


ee 


static inline volatile void oom (void) 


printk ("out of memory\n\r") ; 
do _exit (SIGSEGV) ; /进程 退出 


} 


#define PAGING MEMORY (15*1024*1024) //1 MB 以 下 的 不 进行 
分 页 管理 


#define MAP NR (addr) ( ( (addr) -LOW MEM) >>12) 


unsigned long get_free_page (void) 


register unsigned long__res asm ("ax") ; 
__asm__ ("std; repne; scasb\n\t" 


"jne 1f\n\t" 


ee 


: "0" (0) , "i" C(LOW_MEM) , "c" (PAGING PAGES) , 


"D" (mem_map+PAGING_PAGES-1) /在 mem_map[] 的 管理 范围 内 
查找 空间 页 


` "di" "cx" "dx" ) e 
. ’ ’ 9 
return __res; 


} 


2) 要 明确 什么 时 候 该 为 进程 新 申请 页 面 ， 什 
么 时 候 不 该 申请 。 


过 第 1 草 的 介绍 我 们 得 知 ， 每 个 页 目录 项 和 
页 表 项 的 最 后 3 位 ， 标 志 着 其 所 管理 的 页 面 的 属性 
(一 个 页 表 本 续 也 占用 一 个 页 面 ) ， 它 们 分 别 是 
U/S、R/W 和 P。 判 断 是 否 该 申请 页 面 ， 是 在 解析 线 
性 地 址 时 确定 的 ， 关 键 要 看 P 这 个 标志 位 。 
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邦 会 被 MMU 解 析 。 如 果 解 析出 录 个 表 项 的 P 位 为 
0， 说 明 该 表 项 没有 对 应 页 面 ， 束 会 产生 缺 页 中 
断 。 前 面 我 们 所 说 的 缺 页 中 断 ， 残 是 这 样 产 生 的 。 
如 末 P 位 为 1， 束 说 明 该 表 项 对 应 看 上 其 体 的 页 面 ， 下 
接 根 据 表 项 中 记录 的 地 址 值 找到 具体 的 页 面 。 所 
以 ， 这 一 位 非常 重要 ， 设 计 者 在 设计 内 核 时 ， 始 终 
部 要 你 证 这 一 位 的 信息 明确 ， 绝 对 不 能 出 现 垃 圾 
值 。 因 为 垃圾 值 就 等 于 错误 。 























内 核 分 页 时 ， 融 是 先 把 一 个 页 目录 表 和 4 个 页 
表 全 部 清 零 ， 然 后 把 P 位 设置 为 1。 代 码 如 下 : 


/代码 路 径 : boot/head.s: 


setup paging: /严格 的 清 零 操作 

movl $1024*5, %ecx/*5 pages-pg_dir+4 page tables*/ 
xorl %eax, %eax 

xorl %edi, %edi/*pg_dir is at OxO000*/ 

cld; rep; stosl 


movl $pg0+7, _pg_dir/*set present bit/user r/w*/ 


movl $pg1+7, _pg_dir+4/*--------- oe ener */ 
movl $pg2+7, _pg_dir+8/*--------- WE */ 
movl $pg3+7, _pg_dir+12/*--------- 人 */ 


movl $pg3+4092, %edi 

movl $0xfff007, %eax/*16Mb-4096+7 (r/w user,p) */ 
std 

1: stosl/*fill pages backwards-more efficient: -) */ 
subl $0x1000, %eax 

jge 1b 


ecco oo 


7 的 二 进 制 形式 是 111，P 被 设置 为 1 了 。 


创建 进程 的 时 候 ， 会 申请 页 面 。 只 要 调用 
get_free_page O 函数 ， 就 要 把 内 存 清和 零 ， 因 为 无 
法 预知 这 页 内 存 的 用 途 。 如 果 是 用 作 页 表 ， 不 清 零 
MAMKA Mkao iS F: 





/代码 路 径 : mm/memory.c: 


unsigned long get_free_page (void) 


"leal 4092 (%%edx) , %%edi\n\t" 
"rep; stosln\t"// 页 面 清 零 








复制 页 表 时 ， 就 得 建立 映射 关系 。 关 系 建 立 
后 ， 束 把 P 位 设置 为 1。 代 码 如 下 : 





/代码 路 径 : mm/memory.c: 


int copy_page_tables (unsigned long from,unsigned long to,long size) 


from _page_table= Cunsignedlong*) (Oxfffff000&*from_dir) ; 
if C! (to_page_table= (unsigned long *) get_free_page () ) ) 


retum-1; /*Out of memory,see freeing*/ 





*to_dir= ( (unsigned long) to_page_table) |7; /页 目录 项 的 P 位 被 
设置 为 1 


nr= (from==0) ?0xA0: 1024; 

for (; nr-->0; from_page_table++, to_page_tablet++) { 
this _page=*from_page_table; 

if (! (1&this_page) ) 


continue; 





this _page&=~2; /页 表 项 中 的 P 位 被 设置 为 1， 一 2 的 二 进 制 形式 
为 101 


*to_page_table=this_page; 
if (this_page>LOW_MEM) { 
*from_page_table=this_page; 





页 表 和 页 面 的 关系 解除 后 ， 页 表 项 就 要 清 零 。 
页 目录 项 和 页 表 解 除 关 系 后 ， 页 目录 项 也 要 清 零 ， 
这 样 就 等 于 把 对 应 的 页 表 项 、 页 目录 项 的 P 清 零 
了 。 代 码 如 下 : 











/代码 路 径 : mm/memory.c: 


int free_page_tables (unsigned long from,unsigned long size) 


if (1&*pg_table) 

free _page (Oxfffff000&*pg table) ; 
*pg_table=0; /页 表 项 清 零 

pg _table++; 

free _page (Oxfffff000&*dir) ; 


*dir=0; /页 目录 项 清 零 


比如 在 进程 加 载 程序 阶段 ， 就 调用 了 
free_page_tables O 函数 把 对 应 的 页 表 项 、 页 目录 
项 的 P 清 零 了 ， 这 样 ， 当 前 进程 线性 地 址 对 应 的 页 
面 不 存在 ， 进 程 开始 执行 程序 时 ， 必 产生 缺 页 中 
IT 





进程 加 载 程序 后 ， 与 新 页 面 建立 了 映射 关系 ， 
P 位 被 设置 成 1， 代 码 如 下 : 





/代码 路 径 : mm/memory.c: 


unsigned long put_page (unsigned long page,unsigned long address) 


if ( (*page_table) &1) 

page _table= (unsigned long*) (Oxfffff000&*page_table) ; 
else{ 

if (! (tmp=get free page () ) ) 


return 0; 





*page_table=tmp|7; /页 目录 项 的 P 位 被 设置 为 1 
page _table= (unsigned long *) tmp; 


} 





page _table[ (address> >12) &Ox3ff]=page|7; /页 表 项 中 的 P 位 被 
设置 为 1 


ee 


3) 为 进程 新 申请 的 页 面 要 映射 到 该 进程 的 线 
性 地 址 空间 内 。 


Linux 0.11 把 分 页 的 基础 建立 在 分 段 的 基础 
上 。 每 个 进程 的 线性 地 址 空间 只 要 被 限定 住 ， 彼 此 
不 干扰 ， 那 么 分 页 时 就 不 会 出 现 混 乱 。 前 面 已 经 介 
绍 过 进程 线性 地 址 空间 的 总 体格 局 ， 将 IA-32 体 系 
下 的 4 GB 线性 地 址 空间 分 为 64 等 份 ， 每 个 进程 一 
份 ， 彼 此 不 干扰 ， 页 目录 表 的 设计 完全 遵照 这 个 格 
Fjo Linux 0.11 的 页 目录 表 只 有 一 个 ， 一 个 页 目录 
表 可 以 掌控 1024 个 页 表 ， 一 个 页 表 掌 控 1024 个 页 
面 ， 一 个 页 面 4KB， 这 样 一 个 页 目录 表 就 可 以 掌控 


1024x1024x4 KB=4 GB 大 小 的 内 存 空间 。 把 一 个 页 





目录 表 64 等 分 ， 每 个 进程 可 以 占用 16 个 页 目录 项 ， 
掌控 16 个 页 表 ， 即 占用 64 MB 的 物理 页 面 。 这 使 得 
为 每 个 进程 分 的 页 面 ， 部 可 以 映射 到 不 同 的 页 表 项 
上 上 ， 页 表 也 映 冉 到 不 同 的 页 目录 项 上 ，MMU 解 析 
任何 进程 的 线性 地 址 时 ， 最 终 部 可 以 映射 到 不 同 的 
物理 地 址 。 当 然 ， 出 于 共 圣 页 面 的 需要 ， 不 同 的 线 
性 地 址 是 允许 映射 到 相同 的 页 面 的 ， 但 那 只 不 过 和 是 
实际 应 用 的 需求 ， 征 一 种 策略 。 页 目录 表 、 页 表 、 
页 面 这 套 有 映射 模式 足以 文 持 唯一 的 页 面 映 射 到 唯一 
进程 的 线性 地 址 空间 。 


























下 面 我 们 介绍 共 圣 页 面 的 问题 


为 进程 分 页 时 ， 每 个 进程 的 页 面 都 会 映射 到 进 
程 自己 的 线性 地 址 空间 内 ， 这 样 进程 执行 起 来 彼此 
不 会 干扰 。 但 在 有 些 情 况 下 ， 进 程 需要 共享 页 面 ， 
比如 父子 进程 需要 共享 页 面 。 最 明显 的 例子 就 是 进 
程 1 创 建 进程 2 后 ， 进 程 2 加 载 shell 前 ， 都 和 进程 1 共 
用 代码 ， 如 下 所 示 : 





/代码 路 径 : init/main.c: 


void init (void ) 


if (! (pid=fork © ) ) { 


close (0) ; /这 些 代 码 都 是 和 进程 共用 的 


if Copen ("/etc/rc", O_RDONLY, 0) ) 
_exit (1) ; 

execve ("/bin/sh", argv_rc,envp_rc) ; 
_exit (2) ; 

} 

if (pid>0) 


while (pid! =wait (&i) ) 


ee 


此 时 最 好 的 选择 就 是 ， 子 进程 创建 完毕 后 ， 先 
沿用 着 父 进程 的 代码 ， 父 进程 有 多 少 页 面 ， 子 进程 
就 共享 多 少 ， 将 来 子 进程 加 载 了 自己 的 程序 ， 再 重 
新 有 映射。 这 就 引出 了 一 个 问题 : 多 进程 操作 同一 个 
页 面 ， 有 读 有 写 ， 这 相当 于 给 进程 的 封闭 环境 开 了 
HF. Alt, Be AMINE TA FE. 








Linux 0.11 用 页 表 中 的 U/S、R/W 两 个 位 将 这 个 
口子 堵 住 了 。 


先 介绍 U/S 位 。 如 果 U/S 位 设置 为 0， 表 示 段 特 
权 级 为 3 的 程序 不 可 以 访问 该 页 面 ， 其 他 特权 级 都 
可 以 ; 如 果 被 设置 为 1， 表 示 包 括 段 特权 级 为 3 在 内 
的 所 有 程序 都 可 以 访问 该 页 面 。 它 的 作用 就 是 看 死 
用 户 进 程 ， 阻 止 内 核 才 能 访问 的 页 面 被 用 户 进程 使 
用 。 当 然 ，Linux 0.11 中 的 保护 ， 更 偏重 于 使 
用 “ 段 ”。 

















在 信 速 前 为 内 核 分 页 的 时 候 ，U/S 位 被 设置 为 


/代码 路 径 : boot/head.s: 


setup _paging: 


movl $1024*5, %ecx/*5 pages-pg_dir+4 page tables*/ 
xorl %eax, Y%eax 

xorl %edi, %edi/*pg_dir is at Ox000*/ 

cld; rep; stosl 


movl $pg0+7, _pg_dir/*set present bit/user r/w*/ 


movl $pgi+7, _pg_dir+4/*--------- We */ 
movl $pg2+7, _pg_dir+8/*--------- We ee */ 
movl $pg3+7, _pg_dir+12/*--------- a */ 


movl $pg3+4092, %edi 

movl $0xfff007, %eax/*16Mb-4096+7 (r/w user,p) */ 
std 

1: stosl/*fill pages backwards-more efficient: -) */ 
subl $0x1000, %eax 

jge 1b 


代码 中 7 的 二 进 制 形式 是 111， 说 明 U/S 位 被 设 
置 为 1。 





创建 进程 的 时 候 ， 子 进程 页 目录 项 和 页 表 项 中 
的 U/S 位 都 被 设置 为 1， 代 码 如 下 : 





/代码 路 径 :， mm/memory.c: 


int copy_page_tables (unsigned long from,unsigned long to,long size) 


from _page_table= (unsigned long *) (Oxfffff000&*from_dir) ; 
if C! (to_page_table= (unsigned long *) get free page () ) ) 
retum-1; /*Out of memory,see freeing*/ 


*to_dir= ( (unsigned long) to_page_table) |7; /页 目录 项 的 U/S 位 
被 设置 为 1 


nr= (from==0) ?0xA0: 1024; 


for (; nr-->0; from_page_table++, to_page_table++) { 


this _page=*from_page_table; 
if C! (1&this_page) ) 
continue; 


this_page&=~2; /页 表 项 中 的 U/S 位 被 设置 为 1， 一 2 的 二 进 制 形 
式 为 101 


*to_page_table=this_page; 
if (this_page>LOW_MEM) { 
*from_page_table=this_page; 


进程 执行 时 ， 为 进程 新 申请 页 面 ， 并 把 页 面 映 
财 到 进程 的 线性 地 址 空间 ， 这 会 将 页 面 对 应 的 页 表 
项 的 U/S 位 设置 为 1。 如 果 是 新 申请 的 页 表 ， 也 会 将 
对 应 的 页 目录 项 U/S 位 设置 为 1。 代 码 如 下 : 





/代码 路 径 :， mm/memory.c: 


unsigned long put_page (unsigned long page,unsigned long address ) 


if ( (*page_table) &1) 

page _table= (unsigned long*) (Oxfffff000&*page_table) ; 
else{ 

if (! (tmp=get free page () ) ) 

return 0; 

*page_table=tmp|7; /页 目录 项 的 U/S 位 被 设置 为 1 

page _table= (unsigned long *) tmp; 

} 


page _table[ (address> >12) &0x3ff]=page|7; // 页 表 项 中 的 U/S 位 
被 设置 为 1 





下 面 介绍 RW 位 。 如 果 它 被 设置 为 0， 说 明 页 


面 只 能 读 不 能 写 ; 如 果 设 置 为 1， 说 明 可 读 可 写 。 





进程 是 可 以 共 至 页 面 的， 这 样 会 市 来 问题 ， 如 
东 多 个 进程 往 一 个 页 面 里 面 写 数据 ， 那 么 这 个 页 面 
束 会 出 现 混 乱 。 所 以 需要 保护 ，R/W 位 束 提 供 了 这 
种 保护 。 





创建 进程 的 时 候 ， 父 子 进程 共享 页 面 。 这 些 共 
享 的 页 面 束 不 能 写 入 数据 了 ，R/W 位 设置 为 0， 代 
人 码 如 下 : 





/代码 路 径 :， mm/memory.c: 


int copy_page_tables (unsigned long from,unsigned long to,long size) 


this _page=*from_page_table; 


if (! (1&this_page) ) 


continue; 


this_page&=~2; /页 表 项 中 的 R/W 位 被 设置 为 0， 一 2 的 二 进 制 形 
式 为 101 


*to_page_table=this_page; 
if (this_page>LOW_MEM) { 
*from_page_table=this_page; 





再 有 ， 没 有 父子 天 系 的 两 个 进程 也 可 以 共有 至 页 
面 ， 不 用 另行 加 载 ， 这 时 候 也 要 把 R/W 位 设置 为 
0， 茶 止 写 入 数据 。 代 码 如 下 : 








/代码 路 径 : mm/memory.c: 


void do_no_page (unsigned long error_code,unsigned long address ) 


if (! current->executable||tmp >=current->end_data) { 
get _empty_page (address) ; 

return; 

} 

if (share_page (tmp) ) 

return; 

if C! (page=get free page () ) ) 

oom () ; 


ee 


if ( (*p) ->executable! =current-> executable ) 
continue; 
if (try_to_share (address, *p) ) 


return 1; 


return 0; 


} 


static int try_to_share (unsigned long address,struct task_struct * p) // 
检测 是 否 可 以 共 至 页 面 


ee 


to & =Oxfffff000; 

to_page=to+ ( (address> >10) &Oxffc) ; 

if (1&* (unsigned long *) to_page) 

panic ("try_to_share: to_page already exists") ; 
/*share them: write-protect*/ 


* (unsigned long *) from_page&=~2; // 页 表 项 中 的 RW 位 被 设置 
为 0， 一 2 的 二 进 制 形式 为 101 


* (unsigned long *) to_page=* (unsigned long *) from_page; 


invalidate () ; 








通过 上 述 介 绍 不 难 上 及 现 ， 进 程 共享 的 页 面 ， 只 
可 能 有 两 种 操作 ， 要 么 读 ， 要 么 写 。 读 不 会 引起 数 
据 混 乱 ， 可 以 随便 读 。 如 果 是 号 ， 就 可 能 引起 混 
乱 ， 和 需要 禁止 。 而 对 于 写 入 的 需求 ，Linux 0.11% 
取 了 一 套 写 时 复制 的 策略 来 解决 ， 即 把 要 写 入 数据 
的 页 面 再 复制 一 份 给 进程 ， 两 个 进程 各 有 一 份 ， 各 
GARE, KERR ERE. RIKERE 
后 一 他， 用 一 个 操作 实例 来 讲解 号 时 复制 机 制 。 











ill 


Linux 0.11 中 确 有 像 管道 这 样 的 需求 ， 两 个 进 
程 在 同一 页 面 内 叉 读 又 写 。 我 们 将 在 第 8 章 中 详细 
介绍 如 何 保证 进程 操作 管道 时 不 产生 数据 混乱 。 











进入 保护 模式 后 ， 内 核 先 给 上 自己 分 页 。 分 页 是 
建立 在 线性 地 址 空间 基础 上 的 。 前 面 一 节 我 们 介绍 
过 ， 内 核 的 段 基 址 是 0， 代 码 段 和 数据 段 的 段 限 长 
都 是 16 MB。 每 个 页 面 大 小 为 4KB， 每 个 页 表 可 以 
管理 1024 个 页 面 ， 每 个 页 目录 表 可 以 管理 1024 个 页 
表 。 既 然 确定 了 段 限 长 是 16 MB， 这 样 就 需要 4 个 
页 目录 项 下 辖 4 个 页 表 ， 来 管理 这 16 MB 的 内 存 ， 
设置 的 代码 如 下 : 








/代码 路 径 : boot/head.s: 
setup _paging: 


movl $1024*5, %ecx/*5 pages-pg_dir+4 page tables*/ 


xorl %eax, Y%eax 
xorl %edi, %edi/*pg_dir is at OxO000*/ 
cld; rep; stosl 


movl $pg0+7, _pg_dir/*set present bit/user r/w*/ 


movl $pg1+7, _pg_dir+4/*--------- ih ema: */ 
movl $pg2+7, _pg_dir+8/*--------- TO se */ 
movl $pg3+7, _pg_dir+12/*--------- sae */ 


movl $pg3+4092, %edi 

movl $0xfff007, %eax/*16Mb-4096+7 (r/w user,p) */ 
std 

1: stosl/*fill pages backwards-more efficient: -) */ 
subl $0x1000, %eax 


jge 1b 





设置 后 对 内 存 的 管控 情景 如 图 6-3 所 示 。 





M- LC LL |] :个 页 目录 表 和 4 个 页 表 
0 4 MB 8 MB 12 MB 16 MB 
内 核 控制 线性 地 址 0 一 I6MB 的 空间 , 也 是 物理 地 址 的 0 一 16MB 的 空间 


Al 6-3 内 存 分 页 的 情景 


从 图 6-3 中 不 难 及 现 ， 内 核 的 线性 地 址 等 于 物 
理 地 址 。 这 样 做 的 目的 是 ， 内 核 可 以 对 内 存 中 的 所 
有 进程 的 内 存 区 域 任意 访问 。 


可 见 恒 等 映射 模式 并 不 是 唯一 的 模式 ， 内 核 选 
择 线 性 地 址 到 物理 地 址 的 恒 等 映 射 ， 是 因为 对 内 核 
来 讲 最 方便 。 比 如 ， 凡 核 为 进程 申请 了 页 面 ， 这 个 
页 面 总 是 要 映射 到 页 表 项 中 ， 这 需要 往 页 表 项 中 写 





入 访 页 面 的 物理 地 址 。 如 果 是 恒 等 映 射 模 式 ， 调 用 
get_free_page O 函数 后 ， 获 取 的 线性 地 址 值 直接 
束 可 以 当 物 理 地 址 来 用 ， 所 以 更 为 方便 。 


内 核 不 仅 掌 控 了 所 有 内 存 页 面 的 访问 权 ， 而 且 
有 权 设 置 每 个 页 面 的 读 写 、 使 用 等 属性 ， 并 把 这 些 
信息 全 部 记录 在 页 目录 表 和 页 表 的 表 项 中 ， 代 码 如 
"Bs 











/代码 路 径 : boot/head.s: 

setup _paging: 

movl $1024*5, %ecx/*5 pages-pg_dir+4 page tables*/ 
xorl %eax, Y%eax 

xorl %edi, %edi/*pg_dir is at OxO000*/ 


cld; rep; stosl 


movl $pg0+7, _pg_dir/*set present bit/user r/w*/ 


movl $pg1+7, _pg_dir+4/*--------- a */ 
movl $pg2+7, _pg_dir+8/*--------- Wa */ 
movl $pg3+7, _pg_dir+12/*--------- Ne */ 


movl $pg3+4092, %edi 


movl $0xfff007, %eax/*16Mb-4096+7 (r/w user,p) *W/ 可 读 写 标志 
置 1， 保 证 内 核 可 对 该 页 面 进行 写 入 操作 


std 

1: stosl/*fill pages backwards-more efficient: -) */ 
subl $0x1000, %eax 

jge 1b 





这 些 “72” 的 意义 ， 我 们 在 第 1 章 中 已 经 介绍 了 。 


值得 注意 的 是 ，CPU 中 硬件 在 解析 线性 地 址 值 
的 时 候 ， 首 先 要 能 够 找 得 到 页 目录 表 。 如 果 找 不 到 








它 ， 后 续 关 于 页 表 和 页 面 的 解析 就 无 法 进行 。 这 个 
页 目录 表 基 址 值 ， 硬 件 默认 保存 在 CR3 里 面 。 只 要 
一 解析 线性 地 址 值 ， 就 去 CR3 里 面 找 基 址 ， 所 以 内 
核 要 把 基 址 值 载 入 CR3。 代 码 如 下 : 


/代码 路 径 : boot/head.s: 


xorl %eax, Y%eax/*pg_ dir is at Ox0000*/ 
movl %eax, %cr3/*cr3-page directory start*/ 


这 行 对 CR3 操 作 的 指令 ， 只 有 0 特权 级 的 代码 
才能 执行 。 这 意味 看 ， 将 来 进程 开始 执行 后 ， 目 己 
DEPE, 模仿 内 核 制作 一 套 页 目录 表 等 数据 结 
构 。 但 由 于 3 特权 级 下 无 法 把 这 人 套 结 构 挂 接 在 CR3 
上 ， 无 法 找到 其 他 进程 使 用 的 内 存 页 面 ， 也 就 你 护 





了 其 他 进程 。 


男 外 值得 注意 的 是 ， 昌 然 内 核 的 线性 地 址 空间 
和 用 户 进程 不 一 样 ， 内 核 是 不 能 通过 路 越 线性 地 址 
空间 直接 访问 进程 的 ， 但 由 于 早 束 占有 了 所 有 的 页 
面 ， 而 且 特 权 级 是 0， 所 以 内 核 执 行 时 ， 可 以 对 所 
有 页 面 的 内 容 进 行 改 动 , “等 价 于 ?可 以 操作 所 有 进 
程 所 在 的 页 面 。 但 这 与 内 核 二 接 通过 线性 地 
址 “ 段 ” 来 访问 进程 是 两 码 事 儿 。 一 个 典型 的 例子 下 
是 ， 茶 个 进程 要 读 盘 ， 最 终 忆 要 把 绥 冲 区 中 的 数据 
写 到 用 户 空间 内 ， 这 件 事 要 由 内 核 来 完成 。 代 人 码 如 
T: 





/代码 路 径 : mm/memory.c: 


int file_read (struct m_inode * inode,struct file * filp,char * buf,int 
count) 


{ 


ee 


chars=MIN (BLOCK _SIZE-nrleft) ; 

filp- > f_pos+=chars ; 

left-=chars; 

if (bh) { 

char * p=nr+bh->b_data; 

while (chars-->0) 

put _fs byte (* (p++) , buf++) ; /数据 复制 
brelse (bh) ; 

}else{ 

while (chars-->0) 


put _fs byte (0, buf++) ; 


/代码 路 径 : include/asm/Segment.h: 


extern inline void put_fs_byte (char val,char * addr) 


{ 


_asm ("movb%0, %%fs: 





%1": "r" (val) , "m" C*addr) ) ; // 将 一 个 字 节 存储 在 FS 寄存 器 记录 
的 段 的 内 存 地 址 中 


} 


// 代 码 路 径 : kernel/system_call.s 


movl $0x10, %edx#set up ds,es to kernel space 
mov %dx, %ds 
mov %dx, %es 


movl $0x17, %edx#fs points to local data space 


mov %dx，%fs// 内 核 用 FS 寄存 器 存储 用 户 进 程 LDT 中 的 数据 段 摘 述 


call _sys_call_table (, %eax, 4) 


ee 








从 以 上 代码 可 以 看 出 ， 内 核 肯 定 是 能 直接 访问 
进程 的 LDT 对 应 的 内 存 地 址 所 在 的 页 面 ， 但 不 等 于 
内 核 跨 越 了 线性 地 址 的 段 ， 访 问 了 进程 的 线性 地 址 
空间 ， 段 的 基础 保护 并 没有 因为 分 页 而 被 打破 。 


6.3 ”一 个 用 户 进 程 从 创建 到 退出 的 完 


整 过 程 


根据 前 面 讲解 的 原理 ， 我 们 通过 一 个 实例 ， 理 
论 联系 实际 ， 评 细 讲 解 一 个 用 户 进 程 从 创建 到 退出 


的 完整 过 程 。 
6.3.1 创建 str1 进 程 


1. 为 创建 进程 str1; 准 备 条 件 


首先 我 们 来 介绍 一 下 str1 进 程 的 源 代 码 ， 如 


#include <stdio.h> 


int foo Cint n) 


char text[2048]; 

if (n==0) 

return 0; 

else{ 

int i=0; 

for Gi; i<2048; i++) 

text[i]='\0'; 

printf ("text_%d=0x%x,Pid=“%d\n", n,text,getpid ©) ) ; 
sleep (5) ; 


foo (n-1) ; 


} 


int main (int argc,char ** argv) 


{ 
foo (6) ; 


return 0; 


硬盘 上 现在 有 一 个 叫做 str1 的 可 执行 文件 。 用 
户 在 shell 界 面 上 输入 一 条 指令 


/str1, shell 


程序 会 啊 应 并 解析 这 条 指令 ， 创 建 用 户 进程 由 
此 开始 。 


经 解析 得 知 ， 现 在 要 执行 str1 这 个 进程 ， 于 是 
shell 调 用 fork 函 数 开始 创建 进程 ， 产 生 int 0x80 软 中 
Wr, RAJT Bllsys_fork O 这 个 函数 中 ， 调 用 
find_empty_process O 函数 ， 为 str1 进 程 申请 一 个 
可 用 的 进程 号 、 在 task[64] 中 为 该 进程 申请 一 个 空 朵 
人 位置。 我 们 这 里 假设 str1 这 个 进程 是 操作 系统 食 速 





以 后 第 一 个 申请 的 用 户 进程 。 通 过 前 面 章节 的 介绍 
可 知 ， 申 请 到 的 进程 号 是 5， 在 task[64] 中 找到 的 空 


闲 位 置 是 第 5 项 。 


获取 进程 号 和 获取 task[64] 空 亲 项 的 情况 ， 以 
友 str1 进 程 在 task[64] 中 所 占 的 位 置 如 图 6-4 所 示 。 


aaa Ox9FFFF OxFFFFF Ox3FFFFF Ox5FFFFF OxFFFFFF 
S ao BBY 
码 区 peer 


Gi TE 
图 6-4 获取 strl 进 程 占用 的 进程 号 和 task[64] 中 的 
位 置 


后 面 将 根据 task[64] 中 的 项 号 ， 确 定 str1 进 程 处 


于 哪 一 个 64 MB 线性 地 址 空间 内 ， 它 的 LDT 和 TSS 
将 与 GDT 的 哪 两 项 挂 接 。 我 们 来 看 后 面 的 执行 情 
De 





2. 为 str1 进 程 管 理 结构 找到 存储 空间 


copy_process () 函数 的 第 一 件 事 就 是 为 str1 进 
程 申 请 一 个 页 面 ， 这 个 页 面 用 来 承载 进程 的 
task_struct 和 内 核 栈 。 通 过 前 面 的 介绍 我 们 得 知 ， 
为 了 实现 对 进程 的 保护 ， 系 统 为 每 个 进程 的 管理 专 
门 设计 了 一 个 结构 ， 这 就 是 task_struct。 每 个 进程 
都 有 这 样 一 本 账 ， 以 此 保证 互 不 干扰 。 进 程 转 入 内 
核 后 ， 执 行 用 的 代码 都 是 内 核 代码 ， 但 执行 路 径 未 
必 相 同 ， 导 致 数据 压 栈 的 顺序 和 内 容 不 同 。 这 些 栈 

能 存储 在 每 个 进程 的 用 户 空 间 内 ， 这 样 很 容易 
家 上 履 羡 或 改动 ， 这 就 需要 为 每 个 进程 专门 准备 一 套 











内 核 栈 。 


通过 前 面 讲 解 的 内 核 分 页 脓 略 可 知 ， 所 有 的 页 
面 ， 在 刚 进入 保护 模式 时 ， 束 已 经 映射 到 了 内 核 的 
16 MB 线性 地 址 空间 。 现 在 调用 get_free_page © 
函数 ， 是 在 内 核 中 执行 的 ， 获 得 的 用 于 task_struct 
和 内 核 栈 的 页 面 只 可 能 在 内 核 的 线性 地 址 空间 。 从 
操作 系统 的 后 续 程 序 中 ， 也 没有 找到 将 这 个 页 面 映 
射 到 其 他 进程 线性 地 址 空间 的 代码 。 所 以 ， 尽 管 这 
个 页 面 是 为 管理 str1 进 程 而 分 配 的 ， 但 这 个 页 面 并 
没有 映射 到 str1 进 程 的 线性 地 址 空间 ， 因 此 str1 进 程 
无 法 访问 这 个 页 面 ， 这 个 页 面 始终 掌握 在 内 核 手 
HH 








Mget_free_page O 函数 申请 页 面 的 策略 来 
看 ， 操 作 系 统 要 让 进程 使 用 的 页 面 癌 高 地 址 方 回 密 








排 ， 以 此 提高 内 存 的 使 用 效率 。 进 程 执 行 时 ， 尤 其 
是 多 进程 执行 时 ， 页 面 的 释放 是 随机 的 。 这 就 导致 
内 存 中 经 第 会 散布 看 钻 释 放 的 空 几 页 面 ， 而 
get_free_page () 函数 始终 都 是 从 局 地 址 端 疝 低地 
址 融通 历 所 有 页 面 的 ， 只 要 及 现 空闲 页 面 ， 惑 申 
请 ， 直 到 申请 不 到 衬 朵 页 面 为 止 。 这 可 以 保证 所 有 
申请 到 的 页 面 在 内 存 中 都 紧密 排列 ， 使 得 在 4 GB 的 
线性 地 址 空间 中 分 散 的 进程 内 存 集约 到 有 限 的 物理 
内 存 中 运行 。 

















当然 ， 如 果 确 实 没 有 申请 到 空 闪 页 面 ， 说 明 此 
时 内 存 中 已 经 没有 页 面 供 进 程 使 用 了 ， 所 以 就 要 和 直 
接 返 回 错误 信息 ， 进 程 创 建 束 此 结束 。 系 统 优 速 后 
内 存 中 有 大 量 的 空 亲 页 面 ，str1 进 程 义 是 仿 速 后 刚 
刚 创 建 的 进程 ， 所 以 此 时 可 以 申请 到 空 用 页面。 根 


据 前 面 确定 的 task[64] 中 的 项 号 ， 把 该 进程 的 
task_struct 挂 接 到 task[64] 中 ，task[64] 的 项 数 和 线性 
地 址 空间 的 64 等 分 布局 正好 相符 。 每 创建 一 个 进 
程 ， 都 要 把 task_struct 的 指针 载 入 ， 这 样 系统 如 果 
查找 进程 ， 只 要 但 task[64]， 就 可 以 顺 着 指针 找到 唯 
一 的 task_struct， 不 会 出 现 混乱 。 代 人 码 如 下 : 


// 代 人 码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none，// 这 个 nr 就 是 task[64] 中 的 项 号 


long ebx,long ecx,long edx, 

long fs,long es,long ds, 

long eip,long cs,long eflags,long esp,long ss) 
{ 

struct task_struct * p; 

int i; 


struct file * f; 


p= (struct task_struct *) get_free_page O ; /为 str1 进 程 申请 空闲 
页 面 


if C p /如 果 没 有 申请 到 空 采 页 面 ， 返 回 错误 信息 
retun-EAGAIN; 

task[nr]=p; /将 str1 进 程 的 task_struct 挂 接 到 task[64] 中 
*p=*current; /*NOTE! this doesn't copy the supervisor stack*/ 
p->state=TASK_UNINTERRUPTIBLE; 

p- > pid=last_pid; 





此 过 程 情景 如 图 6-5 所 示 。 
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task[64] 中 宅 亲 项 与 空闲 页 面 持 接 
图 6-5 为 str1 进 程 task_struct 申 请 页 面 并 与 操作 系 
统 挂 接 


3.Shell 进 程 给 str1 进 程 复 制 task_struct 结 构 


在 Linux 0.11 设 计 者 看 来 ， 整 个 操作 系统 中 内 
有 进程 ， 内 核 是 进程 的 延续 ， 所 有 的 任务 都 应 该 由 
进程 来 承担 。 沿 着 这 个 设计 思想 不 难 发 现 ， 任 何 时 
候 都 要 有 一 个 进程 在 工作 ，current 指 针 的 意思 就 是 





当前 进程 。 创 建 一 个 进程 ， 这 个 任务 要 由 进程 来 完 
成 ， 准 确 地 说 ， 要 由 当前 进程 来 完成 ， 由 shell 把 自 
己 的 task_struct 结 构 复制 给 strl1 进 程 ， 这 也 是 该 设计 


思想 的 延伸 。 执 行 代码 如 下 : 








// 代 人 码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none，// 这 个 nr 就 是 task[64] 中 的 项 号 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss ) 


if (C! p) 
return-EAGAIN; 
task[nr]=p; 


*p=*current; /*NOTE! this doesn't copy the supervisor stack*///% thl] 


task_struct 结 构 给 str1 进 程 
p->state=TASK_UNINTERRUPTIBLE; 
p- > pid=last_pid; 





复制 情景 如 图 6-6 所 示 。 
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图 6-6 复制 task_struct 结 构 给 str1 进 程 


给 str1 复 制 了 task_struct 后 ，str1 进 程 便 继 承 了 
shell 的 全 部 管理 信息 。 但 由 于 每 个 进程 的 task_struct 








结构 中 数据 信息 是 不 一 样 的 ， 所 以 还 要 对 该 结构 进 
行 个 性 化 设置 。 先 要 将 进程 设置 为 不 可 中 断 等 待 状 
态 。 内 核 执 行 过 程 中 ，Linux 0.11 不 允许 进程 间 切 
换 ， 所 以 这 里 不 进行 状态 设置 也 无 所 谓 。 但 如 果 允 
许 进程 在 内 核 执 行 时 切换 ， 这 里 就 有 必要 设置 为 不 
可 中 断 等 竺 状态 了 。 这 是 因为 进程 task_struct 结 构 
已经 挂 接 在 task[64] 结 构 中 了 ， 如 有 果 在 个 性 化 设置 过 
程 中 发 生 时 钟 中 断 ， 就 会 轮转 到 该 进程 ， 而 此 时 其 
个 性 化 设置 尚未 完成 ， 一 旦 切换 到 该 进程 去 执行 ， 
就 会 引起 进程 执行 的 混乱 。 代 码 如 下 : 











/代码 路 径 : kernel/fork.c: 

int copy_process (int nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 

long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss ) 


task[nr]=p; 
*p=*current; /*NOTE! this doesn't copy the supervisor stack*/ 


p->state=TASK_UNINTERRUPTIBLE:; /wstr1 进 程 被 设置 为 不 可 中 
WT RAS 


p-> pid=last_pid; 
p-> father=current- > pid; 





a) 


这 个 过 程 如 图 6-7 所 示 。 
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| a 线性 地 址 空间 
图 6-7 确定 str1 进 程 在 线性 空间 中 的 位 置 
4. 复 制 strl1 进 程 页 表 并 设置 其 对 应 的 页 目录 项 


task_struct 结 构 中 还 有 其 他 字段 需要 个 性 化 设 
置 。str1 进 程 的 进程 号 和 shell 进 程 的 进程 号 不 一 
RE; str1 的 父 进程 是 shell， 和 shell 进 程 的 父 进程 也 不 
一 样 。 这 些 都 需要 进行 个 性 化 设置 ， 代 码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss ) 


*p=*current; /*NOTE! this doesn't copy the supervisor stack*/ 
p->state=TASK_ UNINTERRUPTIBLE; 

p->pid=last_pid; /设置 str1 进 程 的 进程 号 
p->father=current->pid; // 设 置 shell 为 str1 进 程 的 父 进 程 
p->counter=p- > priority; 

p->signal=0; 
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的 。 此 时 shell 进 程 可 能 已 经 执行 过 一 段 时 间 了 ， 时 
间 片 可 能 已 经 减少 。 但 不 能 因为 这 些 ， 束 让 str1 进 
程 的 时 间 片 也 天 然 地 减少 ， 所 以 这 里 不 能 继承 shell 
的 时 间 户 ， 而 是 用 shell 的 优先 级 来 确定 时 间 户 。 如 
果 优 先 级 没有 被 用 户 指定 设置 过 ， 它 的 数值 和 时 间 
片 的 原始 数值 是 一 样 的 ， 即 15。 代 码 如 下 : 


/代码 路 径 : kernel/fork.c: 

int copy_process Cint nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 

long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss ) 


*p=*current; /*NOTE! this doesn't copy the supervisor stack*/ 


p->state=TASK_UNINTERRUPTIBLE; 


p-> pid=last_pid; 
p-> father=current- > pid; 


p->counter=p-> priority; /用 当前 进程 的 优先 级 设置 str1 进 程 的 时 
间 片 


p->signal=0; 
p->alarm=0; 


ee 





接 下 来 是 对 信号 的 个 性 化 设置 。task_struct 结 
构 中 ， 关 于 信号 的 字段 有 三 个 ， 即 signal、 
sine 它们 分 列表 示 信 号 位 图 、 

号 处 理 函 数 挂 接 点 和 信号 屏蔽 码 。 现 在 创建 str1 
进程 ， 只 把 signal 进 行 了 清 零 ， 其 他 的 都 没有 设 
置 。 这 样 做 是 有 原因 的 ， 如 果 不 清 零 ， 那 么 就 等 于 
默认 沿用 了 父 进程 的 信号 位 信息 ， 将 来 str1 执 行 








时 ， 如 果 执 行 到 内 核 ， 则 返回 之 前 就 要 信和 号 检测 ， 
本 来 str1 没 有 接收 到 信号 ， 就 因为 误 用 信号 位 信 
息 ， 导 致 没 必要 的 信号 处 理 。 为 此 需要 改变 用 户 栈 
音 息 、 绑 定 进 程 的 信号 处 理 函 数 等 一 系列 配合 才能 
处 理 信 号 ， 而 str1 进 程 根 本 没准 备 这 些 ， 市 着 这 

未 知 因素 从 内 核 返 回 进程 ， 执 行 就 彻底 混乱 了 。 





既然 此 时 没有 接收 信号 ， 那 惑 设 必要 藉 系 信和 号 
Ab SH PR LATE Re A BF AAS So. A AAR PAS BAN 
进行 个 性 化 设置 ， 代 码 如 下 : 


/代码 路 径 : kernelfork.c: 

int copy_process (int nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 

long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss ) 


p-> father=current- > pid; 

p- > counter=p- > priority; 
p->signal=0; /信号 位 图 清 零 
p->alarm=0; 


p->leader=0; /*process leadership doesn't inherit*/ 


言 号 的 详细 处 理 过 程 ， 我 们 将 在 第 8 章 介 绍 。 


下 面 我 们 继续 介绍 其 他 字段 的 个 性 化 设置 。 类 
似 的 清 零 和 默认 继承 还 表现 在 天 于 str1 进 程 的 时 间 
设置 方面 和 会 话 组 织 方面 。 代 码 如 下 : 


/代码 路 径 :; kernel/fork.c: 


ay 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss ) 


p- > counter=p-> priority; 
p->signal=0; 


p->alarm=0; /报警 定时 值 清 堆 











p->leader=0; /*process leadership doesn't inherit*/// 会 话 首领 字段 清 


p->utime=p->stime=0; 
p->cutime=p-> cstime=0; 
p->start_time=jiffies; 

p- >tss.back_link=0; 


p->tss.espO=PAGE _SIZE+ (long) p; 


ee 


其 他 与 时 间 设 置 和 会 话 组 织 相关 的 字段 全 部 治 
用 。 以 上 这 些 字 段 是 为 内 核 管理 进程 而 设置 的 。 


下 面 介 绍 TSS 字 段 。 它 是 为 进程 间 切 换 而 设计 
的 。 进 程 切换 是 建立 在 对 进程 保护 的 基础 上 的 。 采 
取 什 么 样 的 保护 设计 ， 就 会 有 什么 样 的 进程 切换 模 
式 与 之 相 适 应 。 进 程 执行 时 ， 会 用 到 各 种 寄存 器 。 
这 导致 进程 切换 不 会 是 一 个 简单 的 跳 转 ， 而 是 一 整 
套 寄存 器 的 值 随 之 切换 。 这 就 要 保证 进程 切换 走时 
与 切换 回来 时 不 发 生 混乱 ， 这 样 才能 保证 进程 执行 
的 正确 性 。 为 此 ，Linux 0.11 设 计 者 在 每 个 进程 的 
task_struct 中 记 笔 账 ， 这 笔 账 就 是 TSS。 进 程 切换 就 
要 与 此 相 适 应 。 每 当 进 程 切 换 ， 就 用 TSS 来 保存 现 
场 ， 即 保存 当前 各 个 寄存 器 的 状态 ， 等 切换 回 这 个 














进程 后 ， 再 用 TSS 中 的 数据 恢复 寄存 器 中 的 数据 。 
代码 如 下 : 





/代码 路 径 : kernel/fork.c: 

int copy_process Cint nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 

long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss ) 


p->cutime=p-> cstime=0; 

p->start_time=jiffies; 

p->tss.back_link=0; /以 下 代码 是 对 TSS 字 段 的 设置 
p->tss.espO=PAGE_SIZE+ (long) p; 
p->tss.ssO=0x10; 


p->tss.eip=eip; 


p->tss.eflags=eflags; 
p->tss.eax=0; 

p- > tss.ecx=ecx; 
p->tss.edx=edx; 
p->tss.ebx=ebx; 
p->tss.esp=esp; 
p->tss.ebp=ebp; 
p->tss.esi=esi; 
p->tss.edi=edi; 
p->tss.es=es & Oxffff; 
p->tss.cs=cs & Oxffff; 
p->tss.ss=ss & Oxffff; 
p- >tss.ds=ds & Oxffff; 
p->tss.fs=fs & Oxffff; 
p->tss.gs=gs & Oxffff; 
p->tss.ldt=_LDT (nr) ; /以 上 代码 是 对 TSS 字 段 的 设置 


p->tss.trace_bitmap=0x80000000; 


if Clast_task_used_math==current ) 


__asm__ ("clts; fnsave%0": "m" (p->tss.i387) ) ; 


从 以 上 代码 中 可 以 看 出 ，copy_process〈) P&I 
数 参 数 中 设置 的 变量 ， 基 本 都 用 来 设置 段 寄存 右 ; 
将 来 strl 开 始 执 行 的 契机 ， 也 必 将 是 一 次 进程 切换 
导致 的 ; 而 一 旦 发 生 进程 切换 ，TSS 这 一 整套 的 寄 
存 右 值 都 伴随 过 去 ， 用 来 初始 化 CPU 的 各 个 寄存 
和 项， 并 决定 str1 进 程 开始 的 执行 状态 。 


另外 值得 注意 的 是 ， 用 这 些 数值 来 设置 寄存 
和 项， 是 CPU 目 动 完 成 的 ， 所 以 我 们 在 内 核 中 找 不 到 
给 寄存 器 赋值 的 代码 。 那 么 CPU 中 的 硬件 怎么 知道 
哪个 数值 是 用 来 为 哪个 寄存 器 赋值 的 呢 ? 只 有 一 种 





可 能 ， 就 是 CPU 硬件 的 事先 约定 ， 按 照 目 前 TSS 中 
各 个 字段 的 顺序 取 值 。 这 意味 着 ， 如 果 顺 序 排列 错 
误 ， 进 程 执 行 束 混乱 了 。 


对 进程 的 保护 不 仅 体 现在 内 核对 进程 的 管理 以 
及 进程 切换 时 的 控制 ， 在 进程 执行 的 过 程 中 ， 也 要 
有 一 整套 措施 时 刻 看 着 进程 的 边界 ， 具 体 表现 为 分 
段 和 分 页 。 下 面 我 们 继续 介绍 strl 分 段 和 分 页 的 情 


况 。 
5. 复 制 strl1 进 程 页 表 并 设置 其 对 应 的 页 目录 项 


现在 调用 copy_mem O 函数 为 进程 分 段 ， 即 
确定 线性 地 址 空间 。 


通过 前 面 的 介绍 我 们 得 知 ， 确 定 线性 地 址 空 
间 ， 关 键 在 于 确定 段 基 址 和 段 限 长 。 执 行 代码 如 





/代码 路 径 : kernel/fork.c: 

int copy_mem (int nr,struct task_struct * p) 

{ 

unsigned long old_data_base,new_data_base,data_limit; 


unsigned long old_code_base,new_code_base,code_limit; 


code _limit=get_limit (Ox0f) ; /获取 当前 进程 ， 即 Shell 代 码 段 段 限 


data _limit=get_limit (0x17) ; /获取 当前 进程 ， 即 shell 数 据 段 段 限 


old _code_base=get_base (current->ldt[1]) ; 
old _data_base=get_base (current->lIdt[2]) ; 
if Cold_data_base! =old_code_base ) 

panic ("We don't support separate I& D") ; 

if (data_limit<code_limit) 


panic ("Bad data_limit") ; 


new _data_base=new_code_base=nr*0x4000000; /根据 在 task[64] 中 
确定 的 项 号 nr， 确 定 段 基 址 


p- > start_code=new_code_base; 


set_base (p->ldt[1], new_code_base) ; /参考 st 进程 代码 基 址 设 
置 它 的 LDT 


set_base (p->ldt[2], new_data_base) ; /参考 str1 进 程 数据 段 基 址 
设置 它 的 LDT 


if (copy_page_tables (old_data_base,new_data_base,data_limit) ) { 
free _page_tables (new_data_base,data_limit) ; 

return-ENOMEM; 

} 

return 0; 


} 








值得 注意 的 是 ， 从 以 上 代码 中 我 们 看 到 了 根据 
task[64] 中 的 项 号 nr 来 确定 str1 进 程 段 基 址 ， 并 参考 
段 基 址 设置 了 str1 进 程 的 LDT， 但 始终 没有 看 到 设 
置 它 的 段 限 长 。 通 过 前 面 的 介绍 我 们 得 知 ， 进 程 的 





段 限 长 存储 在 LDT 中 ， 复 制 task_struct 结 构 时 ， 把 
LDT 也 复制 过 来 了 ， 没 有 改变 。 这 说 明 strl 沿 用 了 
其 父 进程 shell 的 LDT。 这 样 做 的 理由 是 ，str1 进 程 
开始 执行 后 总 要 执行 代码 ， 但 它 还 没有 加 载 属于 目 
己 的 程序 《或 许 以 后 也 不 加 载 了 ) ， 这 样 就 只 能 和 
父 进 程 共用 代码 。 此 时 沿用 父 进程 的 段 限 长 ， 束 是 
为 了 能 够 共享 到 父 进 程 的 全 部 代码 和 数据 。 





分 段 问 题 处 理 完 毕 后 ， 下 面 开始 分 页 。 分 页 是 
建立 在 分 段 基础 上 的 ， 有 具体 表现 为 ， 分 段 时 用 段 基 
址 和 段 限 长 分 别 为 分 页 确定 了 从 哪里 开始 复制 页 面 
表 项 信息 、 复 制 到 哪里 去 和 复制 多 少 这 三 件 事 ， 代 
人 码 如 下 : 





/代码 路 径 :; kernel/fork.c: 


int copy_mem (int nr,struct task_struct * p) 


new _data_base=new_code_base=nr*0x4000000; 
p->start_code=new_code_base; 

set _base (p->ldt[1], new_code_base) ; 
set_base (p->ldt[2], mew_data_base) ; 


if (copy_page_tables (old_data_base,new_data_base,data_limit) ) {// 
调用 此 函数 为 str1 进 程 分 页 


free _page_tables (new_data_base,data_limit) ; 
return-ENOMEM; 


} 


return 0; 





前 面 分 段 时 我 们 介绍 到 ，str1 创 建 后 ， 还 没有 
目 己 的 程序 ， 还 要 和 父 进程 shell 共 享 程 序 。 这 一 点 
竺 分 页 时 表现 为 与 Shell 进 程 共享 页 面 ， 即 为 str1 进 
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同 的 页 面 。 代 码 如 下 : 








/代码 路 径 : mm/memory.c: 


int copy_page_tables (unsigned long from,unsigned long to,long size) 


for (; size-->0O; from _dirt+, to _dir++) {// 这 里 体现 了 分 段 是 分 页 


if (1& *to_dir) 

panic ("copy_page_tables: already exist") ; 

if (! (1&*from_dir) ) 

continue; 

from _page_table= (unsigned long *) (Oxfffff000&*from_dir) ; 


if (C! (to_page_table= (unsigned long *) get free page © ) ) // 
为 创建 页 表 新 申请 一 个 页 面 


retum-1; /*Out of memory,see freeing*/ 


*to_dir= ( (unsigned long) to_page_table) |7; /设置 页 目录 项 

nr= (from==0) ?0xA0: 1024; 

for (; nr-->0; from_page_table++, to_page_table++) {/ 复 制 页 表 
this _page=*from_page_table; 

if C! (1&this_page) ) 

continue; 


this_page&=~2; // 这 里 的 设置 使 共享 的 页 面 对 于 shell 进 程 来 讲 是 
只 读 的 


*to_page_table=this_page; /这 里 的 设置 使 共享 的 页 面 对 于 str1 进 程 
来 讲 是 只 读 的 


if (this page>LOW_ MEM) { 
*from_page_table=this_page; 
this _page-=LOW_MEM;; 

this _page > >=12; 

mem _map[this_page]++; 


} 


invalidate () ; 
return 0; 


} 


复制 页 表 和 设置 页 目录 项 的 过 程 如 图 6-8 所 
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Al 6-8 为 strl 进 程 复制 页 表 并 设置 strl1 进 程 的 页 
目录 项 


值得 注意 的 是 ， 为 新 进程 创建 页 表 时 ， 还 要 调 
用 get_free_page〈() 函数 申请 空闲 页 面 。 从 需求 上 





来 看 ， 这 里 申请 的 页 面 ， 将 用 来 承载 新 进程 的 页 表 
项 。 这 些 页 表 项 是 用 来 管理 str1 所 占用 的 页 面 的 ， 

征 不 让 进程 使 用 的 ， 所 以 这 里 只 申请 了 页 面 ， 并 没 
有 了 映射 到 str1 进 程 的 线性 地 址 空间 内 。 与 前 面 为 进 
程 的 task_struct 和 内 核 栈 申请 页 面 类 似 ， 这 里 申请 
页 面 时 ， 程 序 是 在 内 核 中 执行 的 ， 处 于 内 核 的 线性 
地 址 空间 内 ， 此 时 申请 的 页 面 早 已 映射 到 内 核 的 线 
性 地 址 空间 内 ， 内 核 因此 具备 访问 它 的 能 力 。 同 

理 ， 现 在 为 装载 页 表 而 申请 的 页 面 ， 都 是 内 核 用 来 
管理 进程 的 ， 内 核能 访问 到 ， 进 程 访问 不 到 。 进 程 
访问 不 到 的 根本 原因 是 ， 内 核 疫 有 把 这 些 页 面 映射 
到 进程 的 线性 地 址 空间 内 。 























分 段 、 分 页 完成 后 ， 还 有 文件 继承 的 问题 要 处 
理 。shell 进 程 打 开 的 文件 ， 它 的 子 进程 一 并 继承 ， 


具体 表现 为 ， 将 文件 的 引用 计数 和 i 节 点 的 引用 计数 
累加 ， 将 来 子 进程 需要 使 用 这 些 文件 时 ， 束 可 以 直 
接 操作 ， 不 需要 再 重新 打开 。 比 如 说 ，shel 进 程 局 
速 前 打开 了 tty 文 件 ， 还 复制 了 文件 句柄 ，str1 进 程 
就 可 以 直接 用 ， 不 需要 重新 读 取 了 。 引 用 计数 累加 
的 执行 代码 如 下 : 











/代码 路 径 : kernel/fork.c: 

int copy_process Cint nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 

long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss ) 


if (copy mem (nr,p) ) { 


task[nr]=NULL; 


BL 


free_page ( (long) p) ; 

retunn-EAGAIN; 

} 

for (i=0; i<NR_OPEN; i++) 

if (f=p->filp[i) 

f->f_count++; /累加 文件 引用 计数 

if Ccurrent-> pwd) 

current->pwd->i_count++; // 累 加 当前 工作 目录 i 节点 引用 计数 
if (current->root) 

current->root->i_countt++; /累加 当前 根 目 录 i 节 点 引用 计数 
if (current->executable) 


current- > executable->i_count++; // 累 加 可 执行 文件 i 节点 的 引用 计 


set_tss_ desc (gdt+ (nr<<1) +FIRST_TSS_ENTRY, & (p-> 


tss) ) ; 


set_Idt_desc (gdt+ (nr<<1) +FIRST_LDT_ENTRY, & (p-> 


Idt) ) ; 


ee 





6. 建 立 str1 进 程 与 全 局 描述 符 表 (GDT) 的 天 
联 


文件 继承 问题 解决 后 ， 将 str1 的 进程 TSS 和 LDT 
挂 接 在 GDT 的 指定 位 置 处 。 代 码 如 下 : 





/代码 路 径 : kernel/fork.c: 

int copy_process (int nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 

long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss ) 


if Ccurrent-> pwd) 


current- > pwd- > i_count++; 


if Ccurrent-> root ) 

current- > root->i_count++; 

if Ccurrent-> executable ) 

current- > executable- >i_count++; 


set_tss_desc (gdt+ (nr<<1) +FIRST_TSS_ENTRY, & (p-> 
tss) ) ; /将 str1 进 程 的 TSS 挂 接 在 GDT 上 并 设置 段 信息 


set_Idt_desc (gdt+ (nr<<1) +FIRST_LDT_ENTRY, & (p-> 
ldt) ) ; /将 str1 进 程 的 LDT 挂 接 在 GDT 上 并 设置 段 信息 


p->state=TASK_ RUNNING; /*do this last,just in case*/ 


return last_pid; 





设置 过 程 如 网 6-9 所 示 。 
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图 6-9 str1 进 程 的 TSS 和 LDT 与 GDT 挂 接 


TSS 和 LDT 对 进程 的 保护 至 关 重 要 。 保 护 的 本 
质 ， 就 是 不 能 让 进程 执行 时 于 扰 到 其 他 进程 。 
在 “ 段 ” 这 方面 ， 有 以 下 两 种 方式 可 以 跳 到 其 他 进 
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第 一 ， 前 面 讲解 过 ， 执 行 段 内 跳 转 指令 ， 但 跳 
转 值 超过 了 段 限 长 。 这 一 点 硬件 始终 在 关注 ，LDT 
中 记录 了 进程 的 段 基 址 和 段 限 长 ， 每 执行 一 条 指 
令 ， 便 件 部 会 检查 是 否 超 过 设 定 的 范围 ， 如 果 超 过 





J, PARBARGPS, GRATER. 


第 二 ， 进 程 执行 时 ， 执 行 段 间 跳 转 指 令 ， 以 此 
实现 段 间 跳 转 。Linux 0.11 中 ， 每 个 进程 一 套 
LDT， 此 时 进程 是 在 3 特权 级 下 执行 的 ， 用 LDT 中 
提供 的 段 描述 符 。 在 这 种 情况 下 ， 如 采 要 实现 段 间 
跳 转 ， 要 把 当前 的 LDT 更 换 为 其 他 段 的 LDT， 以 此 
更 改 段 描述 符 ， 就 需要 LDTR 中 LDT 的 基 址 ， 执 行 
的 指令 是 “LLDT”， 而 这 条 指令 只 能 在 0 特权 级 下 执 
行 ， 所 以 此 时 无 法 改变 LDT。 这 就 导致 ， 进 程 无 论 
怎么 做 ， 都 无 法 跳 转 到 其 他 段 ， 也 就 是 无 法 直接 跳 
转 到 其 他 进程 。 





假设 Linux 0.11 的 保护 格局 不 是 这 样 的 ， 所 有 
进程 都 不 用 LDT 来 记录 段 摘 述 符 ， 而 是 统一 用 
GDT， 那 就 不 用 执行 LGDT 指 令 来 改变 GDT 了 ， 就 


可 以 实现 段 间 跳 转 ， 打 破 了 保护 。 可 见 ， 设 计 者 对 
段 一 级 的 保护 很 是 费 了 一 些 心思 。 





这 两 条 路 都 墙 死 了 ， 段 一 级 的 保护 束 算 完善 

了 。 在 段 一 级 保护 实现 的 基础 上 ， 再 实现 页 一 级 实 
施 保护 。 从 前 面 我 们 对 两 次 get_free_page〈) 函数 
的 调用 可 知 ， 分 页 动作 完全 都 是 由 内 核 完 成 的 。 如 
末 内 核 不 把 页 面 映 册 到 进程 的 线性 地 址 空间 内 ， 进 
程 是 无 法 访问 页 面 的 。 如 果 上 映射 ， 束 要 指定 页 目录 
表 和 页 表 ， 而 页 目录 表 中 页 目录 项 的 确定 ， 完 全 取 
次 于 进程 的 线性 地 址 空间 ， 只 要 线性 地 址 空间 不 重 
登 ， 分 页 肯定 不 会 引起 进程 内 存 的 混 乱 。 








7. 将 str1 进 程 设 为 就 绪 态 





创建 str1 进 程 的 过 程 到 此 结束 了 ， 将 它 的 状态 


REA MAAS” RMAs BEY US SRR 
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执行 代码 如 下 : 





/代码 路 径 : kernel/fork.c: 

int copy_process (int nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 

long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss ) 


set_tss_desc (gdt+ (nr<<1) +FIRST_TSS_ENTRY, & (p-> 
tss) ) ; 


set_Idt_desc (gdt+ (nr< <1) +FIRST_LDT_ENTRY, & (p-> 
Idt) ) ; 


p->state=TASK RUNNING; /*do this last,just in case*/// 设 置 为 就 绪 
态 


return last_pid; 


} 


这 一 过 程 如 图 6-10 所 示 ， 其 中 的 state 被 设置 为 
了 TASK RUNNING. 
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图 6-10 将 strl1 设 置 为 就 绪 态 


6.3.2 str1 进 程 加 载 的 准备 工作 


1. 为 用 户 进程 str1 的 加 载 做 准备 


为 用 户 进程 str1 的 加 载 做 准备 与 为 shell 程 序 的 
加 载 做 准备 的 方式 是 大 体 相 同 的 ， 包 括 对 参数 和 环 
境 变量 等 外 围 环境 的 检测 、 对 str1 可 执行 文件 的 检 
测 、 对 str1l 进 程 task_struct 的 针对 性 调整 以 及 最 终 设 





置 EIP、ESP 这 几 部 分 。 


进入 do_execve 函 数 后 ， 先 要 做 外 围 准备 工 
作 ， 即 为 常理 str1 进 程 参 数 和 环境 变量 所 占用 的 页 
面 做 准备 ， 还 需要 把 str1 所 在 的 文件 i 贡 点 读 出 来 ， 
通过 i 六 点 信息 ， 检 测 文件 自身 是 人 否 有 问题 ， 再 通过 
i 市 点 找到 文件 涉 ， 对 文件 进行 检测 ， 其 中 包括 检 
记录 的 可 执行 文件 代码 长 度 、 数 据 长 度 ， 能 不 能 容 








m 


纳 在 64 MB 的 线性 地 址 空间 内 。 人 代码 如 下 : 





/代码 路 径 : fs/exec.c: 
int do_execve (unsigned long * eip,long tmp,char * filename, 


char ** argv,char ** envp ) 


if (N_MAGIC (ex) ! =ZMAGIC|lex.a_trsize||ex.a_drsize|| 


ex.a_textt+ex.a_datat+ex.a_bss >0x3000000||//{tiS. Bcd. HER EMHE 
度 不 能 超过 48 MB 


inode->i_size<ex.a_texttex.a_data+tex.a_syms+N_TXTOFF (ex) ) 


retval=-ENOEXEC; 


goto exec_error2; /如 果 超 过 48 MB， 直 接 跳 转 到 错误 处 


AERAR Pad ar ste EP EC PPS A 
规范 性 方面 没有 问题 ， 而 且 能 够 容纳 在 64 MB 的 线 
性 地 址 空间 内 。 有 了 这 个 前 提 ， 再 往 下 调整 才 有 意 
Xo 








创建 str1 进 程 时 我 们 介绍 到 ， 它 共享 了 一 些 
shell 进 程 打开 的 文件 ， 继 承 了 一 些 shell 进 程 的 信和 号 
字段 内 容 。 现 在 它 要 加 载 自己 的 程序 了 ， 所 以 有 些 
关系 要 解除 ， 有 些 要 清 零 。 代 码 如 下 : 


/代码 路 径 : fs/exec.c: 
int do_execve (unsigned long * eip,long tmp,char * filename, 


char ** argv,char ** enVp ) 


if C! sh_bang) { 


p=copy_strings (envc,envp,page,p, 0) ; 
p=copy_strings Cargc,argv,page,p, 0) ; 
if (C! p) { 

retval=-ENOMEM; 


goto exec_etror2; 


/*OK,This is the point of no return*/ 


if (current-> executable) /要 从 str1 这 个 可 执行 文件 中 载 入 程序 了 ， 
束 不 需要 共享 shell 进 程 可 执行 文件 的 i 节点 了 


iput (current->executable) ; // 解 除 与 shell 进 程 可 执行 文件 i 节点 的 
关系 


current->executable=inode; //str1 可 执行 文件 的 i 节点 取代 
for (i=0; i=32; i++) 


current-> sigaction[i].sa_handler=NULL; /把 信号 句柄 清空 ， 准 备 加 
载 用 户 自 己 的 信号 处 理 程 序 


for (i=0; i<NR_OPEN; i++) 


if © Ccurrent->close_on_exec>>i) &1) 


sys _close (i) ; 
current->close_on_exec=0; // 把 打开 文件 的 屏蔽 位 清 零 


free _page_tables (get base (current->1dt[1]) ， 
get_limit (Ox0f) ) ; 


free _page_tables (get_base (current->lIdt[2]) , 
get_limit (0x17) ) ; ...... 


} 





2. 释 放 str1 进 程 的 页 表 


前 面 已 经 介绍 str1 进 程 现在 与 shell 进 程 正在 共 
享 着 相同 的 页 面 ， 现 在 str1 要 加 载 自己 的 程序 了 ， 
需要 解除 共享 关系 ， 通 过 调用 free_page_tables © 
函数 来 实现 。 执 行 代 码 如 下 : 











/代码 路 径 : fs/exec.c: 
int do_execve (unsigned long * eip,long tmp,char * filename, 


char ** argv,char ** envp ) 


ee 


for (i=0; i<NR_OPEN; i++) 

if ( Ccurrent->close_on_exec>>i) &1) 
sys _close (i) ; 

current- > close_on_exec=0; 


free _page_tables (get_base (current->lIdt[1]) ， 
get_limit (OxOf) ) ; /释放 代码 段 共 享 的 页 面 


free _page_tables (get_base (current->ldt[2]) ， 
get_limit (0x17) ) ; /释放 数据 段 共享 的 页 面 


if Clast_task_used_math==current ) 
last _task_used_math=NULL; 
current- >used_math=0; 


/代码 路 径 :， mm/memory.c: 
int free_page_tables (unsigned long from,unsigned long size) 


{ 


if (1&*pg_table) 


free _page (Oxfffff000&*pg table) ; // 释 放 掉 共享 的 页 面 


*pg_table=0; // 页 表 项 清 零 
pg _table++; 

} 

free _page (Oxfffff000 &*dir) 


*dir=0; /页 目录 项 清 零 





; // 释 放 挥 页 表 自 映 占用 的 页 面 


释放 页 表 的 过 程 如 图 6-11 所 示 ， 请 读者 注意 其 


中 页 目录 项 的 变化 。 
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图 6-11 释放 str1 进 程 继承 的 页 面 


值得 注意 的 是 ， 原 来 str1 进 程 与 shell 进 程 是 共 
译 页 面 的 ， 即 对 于 这 两 个 进程 ， 共 至 的 页 面部 十 只 
读 的 。 现 在 解除 的 是 str1 和 共享 页 面 的 天 系 ， 但 这 
些 页 面 对 于 shell 进 程 来 讲 仍然 是 只 读 的 ， 那 么 这 样 
会 不 会 影响 shell 进 程 将 来 的 执行 ? 这 一 点 我 们 在 后 
面 讲解 写 时 复制 时 会 详细 介 





3. 重 新 设置 str1 的 程序 代码 段 和 数据 段 





str1 进 程 要 加 载 目 己 的 程序 ， 需 要 根据 程序 的 


长 度 来 重新 设置 LDT， 人 代码 如 下 : 





/代码 路 径 : fs/exec.c: 
int do_execve (unsigned long * eip,long tmp,char * filename, 


char ** argv,char ** envp ) 


p+=change_Idt Cex.a_text,page) -MAX_ARG PAGES * 
PAGE SIZE; /重新 设置 段 限 长 


* page) 


code _limit=text_size+tPAGE_SIZE-1; 


code _limit&=OxFFFFF000; /根据 代码 长 度 重 新 设置 了 代码 段 的 段 
限 长 


data _limit=0x4000000; /将 数据 段 长 度 设置 为 64 MB 
code _base=get_base (current->lIdt[1]) ; 

data _base=code_base; // 段 基 址 没有 变化 

set _base (current->ldt[1], code_base) ; 

set limit (current->Idt[1], code_limit) ; 

set base (current->ldt[2], data_base) ; 


set limit (current->Ildt[2], data limit) : 


ee 


这 里 是 对 str1 进 程 段 限 长 的 最 后 设置 ， 可 以 看 
出 ， 始 终 没 有 超过 64 MB。 如 果 str1 进 程 以 后 做 父 
进程 ， 根 据 进程 复制 机 制 ， 它 创建 出 来 的 子 进程 的 
段 限 长 也 不 会 超过 64 MB， 这 样 ， 系 统 创建 的 每 个 
进程 ， 都 被 限制 在 属于 自己 的 64 MB 地 址 空间 内 。 








设置 过 程 如 图 6-12 所 示 。 


i A Ox9FFFF OxFFFFF 0x3FFFFF OQxSFFFFF OxFFFFFF 
| | 
mE bT 
ee serfsk struct 所 在 页 面 


te 


LDT 

; 代码 段 LDT[I] 
数据 段 LDT[2] 
: 0 256 MB 320 MB 4 GB-1 


线性 地 址 空间 
:代码 段 限 长 


数据 段 限 长 


图 6-12 重新 设置 str1 程 序 的 代码 段 和 数据 段 


4. 调 整 str1 进 程 task_struct 


对 str1 进 程 task_struct 中 的 brk、start_stack 等 信 
恩 进 行 设置 。 设 置 这 些 字 上 段 的 作用 ， 是 为 了 避免 进 
程 在 执行 时 发 生 错 误 ， 本 质 上 是 管理 ， 不 是 保护 。 





执行 代码 如 下 : 





/代码 路 径 : fs/exec.c: 


int do_execve (unsigned long * eip,long tmp,char * filename, 


char ** argv,char ** envp ) 


current- >used_math=0; 


p+=change_ldt Cex.a_text,page) -MAX_ARG PAGES * 
PAGE_SIZE; 


p= (unsigned long) create_tables ( (char *) p,argc,envc) ; 


current- 之 brk=ex.a_bss+/ 以 下 是 根据 文件 头 ex 中 提供 的 信息 ， 设 置 
程序 控制 字段 


Ccurrent->end_data=ex.a_data+ 
Ccurrent->end_code=ex.a_text) ) ; 
current- > start_stack=p & Oxfffff000; 
current- > euid=e_uid; 
current- > egid=e_gid; 


i=ex.a_textt+ex.a_data; 


while (i& Oxfff) 

put _fs_byte (0, (char*) (i++) ) ; 
eip[O0]=ex.a_entry; /*eip,magic happens: -) */ 
eip[3]=p; 





设置 结果 装载 到 str1 进 程 task_struct 所 占 页 面 的 
过 程 如 图 6-13 所 示 。 


pane Ox9FFFF OxFFFFF Ox3FFFFF OxSFFFFF OxFFFFFF 


调整 str1 的 task_struct 的 其 他 一 些 变 量 


Al 6-13 调整 str1 进 程 task_struct 


最 后 再 调整 EIP 和 ESP， 使 软 中 断 返 回 后 ， 直 接 


从 str1 程 序 开 始 位 置 执行 。 前 面 我 们 已 经 介绍 过 ， 
str1 进 程 与 shell 进 程 解除 了 共享 页 面 的 关系 ， 控 制 
页 面 的 页 表 也 已 经 释放 ， 断 绝 了 与 str1 进 程 的 页 目 
录 项 的 映射 关系 。 这 意味 着 页 目录 项 的 内 容 为 0， 
包括 P 位 也 为 0。strl 程 序 一 开始 执行 ，MMU 解 析 线 
性 地 址 值 时 就 会 发 现 对 应 的 页 目录 项 P 位 为 0， 因 此 
产生 缺 页 中 断 。 











6.3.3 str1 进 程 的 运行 、 加 载 











1. 产 生 缺 页 中 断 并 由 操作 系统 响应 


缺 页 中 断 信 号 产生 后 ，page_fault 这 个 服务 程序 
将 对 此 进行 啊 应 ， 并 最 终 在 _page_fault 中 通 
过 “call_do_no_page” 调 用 到 缺 页 中 汤 处 理 程序 
_do_no_page 中 去 执行 。 


执行 代码 如 下 : 


/代码 路 径 : mm/page.s: 
_page_fault: 
testl $1, %eax 


jne 1f 


1: call_do_no_page 


ee 


进入 do_no_page〈) 函数 后 ， 在 加 载 str1 程 序 
之 前 ， 先 要 做 如 下 两 方面 的 检测 。 


第 一 ，str1 进 程 是 否 已 经 把 程序 加 载 进来 了 ， 
或 者 产生 缺 页 中 断 的 线性 地 址 值 是 否 已 经 超出 了 程 
序 代码 的 来 闫 。 显 然 两 种 情况 者 不成立，str1 的 代 
码 内 容 将 从 便 盘 上 加 载 。 执 行 代码 如 下 : 


/代码 路 径 : mm/memory.c: 


void do_no_page (unsigned long error_code,unsigned long address ) 


address & =Oxfffff000; 


tmp=address-current- > start_code; 


if (! current->executable||tmp >=current->end_data) {//executable 


为 str1 程 序 所 在 文件 i 节 点 ，end_data 为 程序 代码 末端 





get _empty_page (address) ; 
return; 

} 

if (share_page (tmp) ) 
return; 








第 二 ，strl 是 否 有 可 能 与 菜 个 现 有 的 进程 共享 
代码 ， 比 如 某 个 其 他 进程 已 经 把 str1 程 序 加 载 了 的 
情况 。 显 然 现 在 也 不 可 能 。 代 人 码 如 下 : 








/代码 路 径 : mm/memory.c: 
void do_no_page (unsigned long error_code,unsigned long address ) 


{ 


if (! current->executable||tmp >=current->end_data) { 
get_empty_page (address) ; 

return; 

} 

if (share_page (tmp) ) /试图 和 其 他 进程 共享 

return; 

if C! (page=get free page () ) ) 

oom () ; 





现在 的 情况 和 加 载 shell 程 序 时 的 情况 一 样 ， 都 
需要 从 硬盘 上 把 程序 加 载 进来 。 下 面 就 要 在 主 内 存 
中 申请 空闲 页 面 ， 然 后 加 载 str1 程 序 。 


2. 为 str1 程 序 申 请 一 个 内 存 页 面 


FEE A EPA S28, Este Lape 
起 始 部 分 的 程序 载 入 ， 执 行 代码 如 下 : 





/代码 路 径 : mm/memory.c: 


void do_no_page (unsigned long error_code,unsigned long address ) 


if (share_page (tmp) ) 

return; 

if C! (page=get_free_page () ) ) /为 str1 申 请 页 面 
oom O) ; /要 是 申请 不 到 空 亲 页面， 就 令 str1 进 程 退出 
/*remember that 1 block is used for header*/ 


block=1+tmp/BLOCK_SIZE; 





为 str1 程 序 申请 的 空闲 页 面 及 其 在 内 存 管 理 结 
构 mem_map 中 登记 的 情况 如 图 6-14 所 示 。 


Ox arr OxFFFFF Ox3FFFFF OxS5FFFFF OxFFFFFF 
| | | 
| my BE 
B 空闲 页 面 | 

ran titan m | O 

WP x x etsa 1 mem map [J 

IMB 6MB 16MB 
页 面 引用 计数 加 1 


图 6-14 为 str1 程 序 申请 一 个 内 存 页面 


从 前 面 的 讲解 可 知 ， 所 有 分 配给 进程 的 页 面 天 
然 存在 两 套 映 射 天 系 ， 一 套 是 与 内 核 线 性 地 址 空间 
的 映射 ， 必 一 父 是 与 进程 线性 地 址 空间 的 映射 。 内 
核 与 页 面 的 映射 关系 从 来 没 被 解除 过 。 试 想 如 有 条 把 
页 面 映射 给 进程 后 就 解除 了 内 核 与 页 面 的 映射 天 
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3. 将 str1 程 序 加 载 到 新 分 配 的 页 面 中 


将 str1 程 序 从 硬盘 加 载 到 这 个 新 分 配 的 页 面 
中 ， 一 次 加 载 4KB 的 内 容 。 执 行 代 码 如 下 : 





/代码 路 径 : mm/memory.c: 


void do_no_page (unsigned long error_code,unsigned long address ) 


if C! (page=get free page () ) ) 

oom () ; 

/*remember that 1 block is used for header*/ 
block=1+tmp/BLOCK_SIZE; 

for (i=0; i<4; block++, i++) 


nr[iJ=bmap (current->executable,block) ; 


bread _page (page,current->executable->i_dev,nr) ; // flit Kix 
取 str1 的 信息 


i=tmp+4096-current- > end_data; 
tmp=page+4096; 


HF, bmap O 函数 在 第 5 章 5.5 节 已 经 详细 讲 
解 过 ; bread_page ©) 函数 的 执行 过 程 本 质 上 与 
bread ) 函数 相同 。 


过 程 如 图 6-15 所 示 。 


ot, 


Al 6-15 将 str1 程 序 的 初始 部 分 加 载 到 新 分 配 页 
面 





由 于 这 个 页 面 早 已 经 映射 到 了 内 核 的 线性 地 址 
空间 内 ， 所 以 新 加 载 进来 的 内 容 ， 只 要 和 内核 有 需 
要 ， 束 可 以 进行 任意 改动 ， 以 后 加 载 进 来 的 内 容 也 
HE. 


4. 将 分 配给 str1 程 序 的 物理 内 存 地 址 与 str1 进 程 
的 线性 地 址 空间 对 应 





str1 程 序 载 入 后 ， 将 这 页 内存 映射 到 str1 进 程 的 
线性 地 址 空间 内 。 对 应 的 代码 如 下 : 


/代码 路 径 : mm/memory.c: 
void do_no_page (unsigned long error_code,unsigned long address ) 


{ 


while (i-->0) { 

tmp--; 

* Cchar *) tmp=0; 

} 

if (put_page (page,address) ) /映射 到 strl 的 线性 地 址 空间 内 
retum; 

free_page (page) ; 

oom () ; 


} 
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中 ， 对 页 目录 项 进行 了 设置 。 
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图 6-16 将 str1 程 序 的 物理 地 址 与 线性 地 址 对 应 


映 映 完毕 后 ，str1 进 程 才能 执行 到 加 载 的 程 
序 。 


5. 不 断 通过 缺 页 中 断 加 载 str1 程 序 的 全 部 内 容 


行 过 程 中 ， 如 果 雷 要 新 的 代码 ， 束 会 不 断 地 产生 缺 
页 中 汤 ， 以 此 来 不 断 地 加 载 需要 执行 的 程序 。 


到 这 里 为 止 ，str1 的 加 载 过 程 束 介绍 完了 。 下 
面 开始 介绍 strl 运 行 起 来 的 情况 。 


1.str1 程 序 需 要 压 栈 


程序 开始 运行 了 ， 压 栈 动 作 产生 。 


str fe FF FAY foo rk ie ee Hi FL, foo Pk) BL 
中 使 用 一 个 大 小 为 2048 的 字符 数组 text (为 了 能 够 
让 缺 页 中 断 的 效果 更 快 地 表现 出 来 ， 所 以 我 们 这 里 
设置 的 数组 大 小 为 2048 字 市 ， 这 样 ， 两 次 压 栈 ， 效 
果 就 出 来 了 ) ， 以 使 str1 进 程 的 栈 空间 以 较 快 的 速 
上 度 增长 。 每 调用 一 次 foo 函 数 ，strl 进 程 栈 (ESP) 
就 向 下 增长 2048 字 节 。 


2.str1 程 序 第 一 次 调用 foo 程 序 压 栈 


第 一 次 调用 foo 函 数 ，ESP 向 下 扩充 了 2048 字 

。 在 扩充 之 前 ，ESP 所 指 同 的 用 户 进 程 参数 及 坏 
境 变量 列表 已 经 在 页 面 中 占据 了 一 定 的 空间 。 此 时 
扩充 2048 字 节 ， 再 加 上 原来 参数 列表 占用 的 这 部 分 
空间 ， 仍 然 没 有 超出 一 个 页 面 的 总 空间 4KB， 所 
以 ， 目 前 尚 可 以 与 列表 共存 于 同一 物理 页 面 中 ， 情 
况 如 图 6-17 所 示 。 











0x9FFFF OxFFFFF 0x3FFFFF OxSFFFFF OxFFFFFF 


图 6-17 str1 程 序 第 一 次 压 栈 
3.str1 程 序 第 二 次 压 栈 ， 产 生 缺 页 中 断 


第 二 次 调用 foo 函 数 时 ， 情 况 就 不 同 了 。 加 上 


第 一 次 扩充 的 2048 字 节 ， 此 时 这 个 页 面 已 经 无 法 继 
续 承 载 2048 字 节 的 内 容 了 。MMU 解 析 线 性 地 址 值 
的 时 候 ， 会 发 现 新 的 页 表 项 中 P 位 为 0， 因 此 再 次 产 
生 缺 页 中 断 ， 准 备 申请 新 的 页 面 。 








4. 处 理 str1 程 序 第 二 次 压 栈 产生 的 缺 页 中 断 


新 的 物理 页 面 最 终 会 映射 到 str1 进 程 的 线性 地 
址 空间 内 ， 以 此 文 持 寻 址 。 这 次 缺 页 中 断 仍然 是 进 
Ado_no_page O 函数 去 执行 ， 但 是 执行 的 代码 不 
同 了 ， 接 下 来 会 执行 如 下 的 代码 : 





/代码 路 径 : mm/memory.c: 


void do_no_page (unsigned long error_code,unsigned long address ) 


address & =Oxfffff000; 


tmp=address-current- > start_code; 


if C! current->executable||tmp>=current->end_data) {/ 此 条 件 为 


get_empty_page (address) ; / 压 栈 时 申请 空闲 页 面 


return; 


ee 


这 是 因为 tmp 之 =current- 之 end_data 条 件 成 立 
了 ， 此 时 程序 在 线性 地 址 空间 中 执行 到 的 线性 地 址 
值 已 经 大 于 进程 的 end_data 地 址 。 因 此 ， 接 下 来 调 
用 get_empty_page〈) 函数 去 执行 。 这 次 并 不 会 将 
任何 外 设 的 数据 加 载 入 页 面 ， 压 栈 也 会 产生 缺 页 中 
断 ， 但 跟 外 设 上 的 数据 毫 无 关系 。 





进入 get_empty_page O 函数 后 ， 就 会 新 申请 
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线性 地 址 空间 内 。 执 行 代 码 如 下 : 


/代码 路 径 : mm/memory.c: 

void get_ empty page (unsigned long address) 
{ 

unsigned long tmp; 


if (! (tmp=get_free_page () ) ||! put page (tmp,address) ) {// 
申请 页 面 及 映射 到 str1 的 线性 地 址 空间 内 


free_page (tmp) ; /*0 is ok-ignored*/ 
oom () ; 
} 


} 


5.str1 程 序 继续 执行 ， 反 复 压 栈 并 产生 缺 页 中 断 


程序 继续 执行 ， 如 此 反复 进行 “ 压 栈 ~ 如果 表 


项 P 位 为 0~ BRIA At — oy BC LAN FE > As 

We... ERE. Fn iH foo rk By, A dE 
与 物理 内 存 的 映射 关系 如 图 6-18 所 示 。 请 大 家 注意 
压 栈 数据 在 内 存 页 面 上 的 变化 情况 。 


ai. 


“a, 
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图 6-18 str1 程 序 不 断 压 栈 的 效果 


6.str1 程 序 运行 结束 后 清 栈 


程序 执行 完毕 ，foo 函 数 到 达 递 归 的 终止 点 返 
回 Gif (n==0) return 0) 。 这 时 由 于 函数 返回 导致 
进程 清 栈 ，ESP 向 上 《高 地 址 ) 收缩 ， 用 户 进 程 实 
际 使 用 的 栈 空 间 就 变 小 了 。 既 然 栈 已 经 变 小 ， 那 么 
之 前 映射 到 栈 的 线性 地 址 空间 的 物理 页 面 就 应 该 被 
释放 掉 。 但 我 们 从 代码 分 析 和 测试 中 都 发 现 ， 
Linux 0.11 内 核 并 没有 释放 该 物理 页 面 。 理 由 是 这 
样 的 ;进程 执行 的 时 候 内 核 不 在 执行 状态 ， 进 程 执 
行 过 程 中 废弃 的 页 面 ， 内 核 无 法 时 时 检测 。 而 CPU 
中 没有 专门 的 功能 电路 来 管理 此 事 ， 没 有 判断 废弃 
页 面 的 硬件 触发 机 制 ， 内 核 即 使 设计 了 清理 废弃 页 
面 的 功能 ， 也 无 用 武之 地 。 所 以 清 栈 后 的 页 面 没有 





被 释放 。 


结果 如 图 6-19 所 示 。 
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图 6-19 strl 程 序 运行 结束 后 清 栈 效果 示意 图 


6.3.4 str LËRE HE 


这 里 介绍 str1 进 程 的 退出 ， 包 括 运 行 过 程 中 占 
扼 的 内 存 空 间 如 何 释 放 ， 它 目 身 task_struct 所 占据 
的 空间 如 何 处 理 ， 等 等 。 其 实 str1 的 退出 与 shell 进 
程 的 退出 大 体 一 致 ， 都 是 通过 调用 exit《〈) 函数 来 
实现 的 ， 善 后 事务 处 理 完毕 后 ， 由 父 进 程 负 贡 将 它 
的 task_struct 所 在 的 页 面 释放 挥 。 下 面 我 们 来 具体 


介绍 这 一 过 程 。 





1.str1 进 程 准备 退出 


str1 进 程 调 用 exit O 函数 进行 退出 ， 最 终 会 映 
Sp Bllsys_exit O 函数 去 执行 ， 并 调用 do_exi() K 
数 来 处 理 str1 进 程 退出 的 相关 事务 。 执 行 代码 如 
下 : 


/代码 路 径 : include/unistd.h: 

volatile void exit (int status) ; 

/代码 路 径 : kernel/exit.c: 

int sys_exit (int error_code ) 

{ 

return do_exit ( (error_code& Oxff) <<8) ; 


} 


进程 退出 包括 两 方面 : 第 一 ， 释 放 str1 进 程 代 
人 码 与 数据 所 占用 的 物理 内 存 并 解除 与 str1 这 个 可 执 
行文 件 的 关系 ， 这 一 氮 由 str1 进 程 目 己 负责 ; 第 
二 ， 释 放 str1 进 程 的 管理 结构 task_struct 所 占用 的 物 
理 内 存 并 解除 与 task[64] 的 关系 ， 这 一 点 由 父 进 程 


shell 负责。 








2. 释 放 str1 程 序 所 占 页 面 


进入 do_exit O 函数 后 ， 调 用 
free_page_tables O 函数 将 strl 程 序 占用 的 页 面 释 放 
掉 ， 包 括 前 面 提 到 的 己 清 栈 但 尚未 释放 的 内 存 页 
面 ， 并 将 管理 这 些 页 面 的 页 表 以 及 页 目录 项 释放 
掉 。 这 些 页 面 中 仍然 保存 着 str1 进 程 的 垃圾 数据 ， 
但 解除 了 映射 关系 ，str1 进 程 将 无 法 找到 这 些 页 
面 。 执 行 代码 如 下 : 




















/代码 路 径 : kernel/exit.c: 
int do_exit (long code ) 

{ 

int i; 


free _page_tables (get_base (current->lIdt[1]) ， 
get_limit (Ox0f) ) ; /释放 str1 代 码 段 所 占用 的 页 面 


free _page_tables (get_base (current->ldt[2]) ， 
get_limit (0x17) ) ; /释放 str1 数 据 段 所 占用 的 页 面 


for (i=0; i<NR_TASKS; i++) 


if (task[i] & & task[i]->father==current->pid) { 
task[i]- > father=1; 

if (task[i]->state==TASK_ZOMBIE ) 
/*assumption task[1]is always init*/ 


(void) send_sig (SIGCHLD,task[1], 1) ; 





释放 过 程 如 图 6-20 所 示 。 
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Al 6-20 释放 strl 程 序 占用 的 页 面 


3. 解 除 str1 程 序 与 文件 有 关 的 内 容 并 给 父 进程 肥 


解除 该 进程 与 str1 程 序 对 应 的 可 执行 文件 的 关 
系 ， 具 体 表现 为 先 将 与 父 进 程 共 圣 的 文件 释放 挥 ， 
然后 内 核 将 str1 进 程 设置 为 僵 死 状态 ， 并 给 它 的 父 
进程 shel 肥 送 “ 子 进程 退出 ?信号 《信和 号 处 理 的 问题 
将 在 第 8 章 中 详细 介绍 ) 。 对 应 代码 如 下 : 





/代码 路 径 : kernel/exit.c: 


int do_exit Clong code ) 


for (i=0; i<NR_OPEN; i++) /以 下 解除 与 父 进程 共享 的 文件 
if Ccurrent->filp[i]) 
sys _close (i) ; 


iput (current->pwd) ; 


current- >pwd=NULL; 

iput Ccurrent->root) ; 

current- >root=NULL; 

iput (current->executable) ; 

current->executable=NULL; /以 上 解除 与 父 进 程 共享 的 文件 
current->state=TASK_ZOMBIE; /将 str1 设 置 为 僵 死 状态 
current- > exit_code=code; 


tell father (current->father) ; /给 父 进程 ， 即 shell 进 程 发 信和 号 





关系 解除 并 给 父 进程 友信 号 的 过 程 如 图 6-21 所 


人 小。 
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图 6-21 解除 strl 程 序 与 文件 有 关 的 内 容 
4.strl 程 序 退出 后 执行 进程 调度 


到 这 里 为 止 ，str1 进 程 对 退出 所 做 的 善后 工作 
己 经 完毕 ，str1 进 程 将 切换 到 其 他 进程 去 执行 。 由 
于 现在 只 创建 了 一 个 用 户 进程 ， 所 以 现在 系统 中 有 
进程 0、 进 程 1、updata 进 程 、shell 进 程 和 str1 这 个 用 


户 进程 。 执 行 代 码 如 下 : 





/代码 路 径 :; kernel/exit.c: 


int do_exit (long code) 


current- > state=TASK_ZOMBIE; 

current- > exit_code=code; 

tell _father (current->father) ; 

schedule () ; /准备 切换 到 shell 执 行 
return (-1) ; /*just to suppress warnings*/ 


} 





进程 切换 效果 如 图 6-22 所 示 。 
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A 6-22 strl 进 程 退 出 ， 切 换 到 shell 进 程 


shell 进 程 接收 到 str1 发 送 的 信号 而 被 唤醒 ， 即 
设置 为 殴 络 态 ， 之 后 切换 到 shell 进 程 去 执行 。shell 
进程 执行 进入 内 核 后 ， 内 核 将 释放 挥 str1 进 程 
task_struct 所 占用 的 页 面 ， 并 解除 str1 进 程 与 task[64] 
的 天 系 ， 这 样 str1 束 彻 展 从 系统 中 退出 了 。 这 个 空 
出 来 的 task[64] 位 置 ， 可 以 被 其 他 进程 占用 。 占 用 了 
这 个 位 置 的 进程 ， 将 具有 和 str1 相 同 的 线性 地 址 空 
间 和 页 目录 项 。 








6.4 “多 个 用 户 进程 同时 运行 


本 节 以 三 个 用 户 进 程 (str1、str2、str3) 为 
例 ， 来 看 看 多 个 进程 是 如 何 运 行 的 ， 它 们 又 是 如 何 
切换 的 。 


6.4.1 ”进程 调度 
1. 依 次 创建 str1、str2 和 str3 进 程 


我 们 假设 系统 中 尚 没 有 任何 用 户 进 程 存在 ， 外 
设 上 有 三 个 可 执行 文件 ， 分 别 是 str1、str2、str3， 
且 文件 中 的 程序 都 与 前 面 介 绍 的 str1 进 程 的 代码 一 
致 。 在 此 前 提 下 ， 我 们 依次 创建 三 个 用 户 进 程 : 


strl. str2、 str3. 





现在 last_pid 已 经 累加 为 4 了 ， 上 所 以 这 三 个 进程 
的 进程 号 应 该 依次 是 5、6、7。 现 在 task[64] 中 的 前 
四 项 已 经 被 占用 了 ， 所 以 这 三 个 进程 只 能 依次 从 第 
五 项 开始 与 task[64] 建 并 关系 ， 它 们 在 task[64] 中 的 
项 号 依次 为 4、5、6。 由 此 进一步 可 以 得 出 ， 它 们 
在 线性 地 址 空间 的 位 置 应 该 依次 是 4x64 一 5x64 
MB. 5x64~6x64 MB. 6x64~7x64 MB. 





这 三 个 进程 在 线性 空间 中 的 分 布 效 末 如 图 6-23 
所 示 。 
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图 6-23 ”str1、str2 和 str 3 进程 在 线性 空间 中 的 分 
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图 6-24 ”展现 了 三 个 进程 的 task_struct 和 压 栈 的 
数据 信息 在 物理 内 存 中 的 分 布 情况 。 
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图 6-24 三 个 进程 的 task_struct 和 压 栈 数据 信息 在 
主 内 存 区 的 分 布 


2.str1 进 程 压 栈 的 执行 效果 


假设 现在 轮 到 str1 进 程 执行 。str1 开 始 执行 foo 
函数 调用 ， 惑 需要 压 栈 ， 于 是 产生 缺 页 中 断 。 在 缺 
页 中 断 处 理 中 ， 内 核 为 sr1 进 程 申 请 了 空闲 物理 页 
面 ， 并 将 其 映射 到 str1 进 程 的 线性 地 址 空间 。 之 
后 ， 进 程 再 对 text 数 组 进行 设置 ， 内 容 融 被 写 在 了 
刚 分 配 的 物理 页 面 上 了 。 





执行 效果 如 图 6-25 所 示 。 


oe OxOFFFF OxFFFFF Ox3FFFFF OxSFFFFF OxFFFFFF 





| strl 进 程 数据 压 栈 


图 6-25 str1 进 程 压 栈 的 效果 


3.str1 运 行 过 程 中 产生 时 钟 中 断 并 切换 到 str2 执 


Linux 0.11 中 ， 两 种 情况 下 会 导致 进程 切换 。 
一 种 是 由 时 钟 中 断 引发 的 进程 切换 ， 这 与 进程 执行 
坚 无 关系 。 无 论 是 哪个 进程 执行 ， 也 无 论 是 在 3 特 
权 级 下 执行 还 是 在 0 特权 级 下 执行 ， 时 钟 中 断 都 会 
产生 ， 只 要 满足 切换 条 件 ， 束 切换 。 男 一 种 是 由 进 
程 执行 引起 的 中 断 。 进 程 执行 到 内 核 中 时 ， 如 果 执 


行 了 类 似 读 硬 盘 数 据 的 程序 ， 数 据 读 出 之 前 ， 进 程 
无 法 继续 执行 ， 束 应 当 将 当前 进程 挂 起 ， 切 换 到 其 
他 进程 去 执行 。 但 无 论 是 哪 种 情况 下 的 切换 ， 都 是 
TSS 和 LDT 中 的 全 套 信息 跟着 进程 走 。 下 面 先 来 看 
由 时 钟 中 断 引 发 的 切换 。 





str1 在 执行 过 程 中 ， 每 10 毫 秒 就 会 产生 一 次 时 
钟 中 断 ， 这 样 就 会 削减 它 的 时 间 片 。 我 们 在 程序 中 
调用 了 sleep ©) 函数 ， 以 便 起 到 延 时 的 效果 。 这 样 
当前 进程 的 时 间 片 被 削减 为 0 时 ， 程 序 还 没有 执行 
完 ， 此 时 要 么 是 0 特权 级 ， 要 么 是 3 特权 级 。str1 进 
程 一 直 在 执行 用 户 程序 ， 特 权 级 为 9， 此 时 就 会 调 
用 schedule《〈) 函数 ， 准 备 进程 切换 。 代 码 如 下 : 


// 代 人 码 路 径 : kernel/sched.c: 


void do_timer (long cpl) 


ee 


if ( (--current->counter) >0) return; /判断 时 间 片 是 否 削减 为 0 


current- > counter=0; 





if C! cpl) retum; /只 有 在 3 特权 级 下 才能 切换 ，0 特 权 级 下 不 能 切 


schedule () ; 


} 


于 是 切换 至 进程 str2 执 行 ， 进 程 str2 也 执行 同样 
逻辑 的 程序 。 值 得 注意 的 是 ， 当 设置 text 数 组 时 ， 
屏幕 打印 的 逻辑 地 址 与 当时 进程 str1 的 地 址 相同 。 
但 它们 的 线性 地 址 不 同 ， 物 理 内 存 中 进程 str2 也 并 
ZA Sstrl Bs. 





str2 执 行 压 栈 操作 的 效果 如 图 6-26 所 示 。 
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图 6-26 str2 执 行 压 栈 操作 的 效果 


4.str2 执 行 过 程 中 直到 时 钟 中 断 ， 切 换 到 str3 执 


str2 执 行 一 段 时 间 后 ， 时 间 片 被 削减 为 0 后 又 切 
换 到 str3 去 执行 。 它 也 要 压 栈 ，str3 开 始 运 行 ， 执 行 
的 代码 与 进程 stt2 相 同 ， 也 是 压 栈 ， 并 设置 text。 


str3 程 序 执行 压 栈 的 效果 如 图 6-27 所 示 。 
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图 6-27 str3 执 行 压 栈 操作 的 效果 


我 们 不 妨 对 str3 的 代码 稍 加 改动 ， 调 用 
open () 、read () 和 close © 函数 ， 从 硬盘 上 读 
文件 。 这 样 就 映射 到 sys_read O 函数 中 执行 。 下 
达 读 盘 指令 后 ， 数 据 不 会 马上 进入 缓冲 区 。 没 有 数 
据 ，str3 就 不 能 继续 执行 。 这 时 候 它 会 主动 地 将 自 
己 挂 起 ， 然 后 切换 到 其 他 进程 去 执行 。 代 码 如 下 : 


/代码 路 径 : fs/buffer.c: 
struct buffer head * bread (int dev,int block ) 


{ 


struct buffer_head * bh; 

if (! (bh=getblk (dev,block) ) ) 

panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate ) 

return bh; 


ll_rw_block (READ,bh) ; 





wait _on_buffer (bh) ; /检查 是 人 否 需要 等 竺 缓冲 块 解 锁 而 将 进程 挂 


if (bh->b_uptodate ) 
return bh; 

brelse (bh) ; 

return NULL; 


} 


static inline void wait_on_buffer (struct buffer head * bh) 


cli ©) ; 


while (bh->b_lock) 


sleep _on (&bh->b_wait) ; /缓冲 块 此 时 还 在 加 锁 ， 所 以 需要 将 
进程 挂 起 


sti () ; 


void sleep_on (struct task_struct ** p) 


tmp=*p; 
*p=current; 


current->state=TASK_ UNINTERRUPTIBLE; /将 当前 进程 挂 起 ， 
此 时 挂 起 的 是 str3 


schedule () ; /切换 到 其 他 进程 去 执行 
if (tmp) 
tmp- > state=0; 


} 





5. 三 个 程序 执行 一 段 时 间 后 在 主 内 存 的 分 布 格 


str3 执 行 一 段 时 间 后 ， 时 间 片 也 用 完了 。 这 样 
三 个 用 户 进程 虽然 还 需要 继续 执行 ， 但 时 间 片 都 用 
完了 。 当 再 发 生 时 钟 中 断 时 ，do_timer () 函数 调 
FAschedule O 函数 进行 进程 切换 ， 这 时 ， 内 核 会 
为 它们 重新 分 配 时 间 片 。 





内 核 从 task[ 的 末端 开始 重新 给 当前 系统 的 所 
有 进程 (包括 处 于 睡眠 的 进程 ， 但 进程 0 除外 ) 分 
配 时 间 片 。 时 间 捕 的 大 小 为 counter/2+priority。 
priority 征 进程 的 优先 级 ， 所 以 进程 的 优先 级 越 高 
(priority RAK) ， 分 配 到 的 时 间 户 束 越 多 。 然 后 
根据 此 时 时 间 户 的 情况 重新 选择 进程 运行 ， 如 此 反 
复 进行 。 执 行 代 码 如 下 : 














/代码 路 径 :， kernel/sched.c: 


void schedule (void) 


for (p=&LAST_TASK; p>&FIRST_TASK; --p) 
if (*p) 
(*p) ->counter= ( (*p) ->counter>>1) + 
(*p) ->priority; 





这 里 值得 注意 的 是 ， 重 新 分 配 时 间 户 时， 并 不 
要 给 进程 0 进行 分 配 。 这 是 因为 ， 只 要 系统 中 所 
有 进程 部 暂时 不 具备 执行 条 件 ， 束 目 动 切 换 到 进程 
0 去 执行 。 进 程 0 将 一 直 执 行 下 去 ， 即 便 在 此 过 程 中 
它 的 时 间 所 削减 为 0 了， 但 由 于 还 没有 可 以 运行 的 


进程 ， 所 以 仍然 需要 进程 0 继续 执行 。 这 样 一 来 ， 
时 间 刻 对 进程 0 来 讲 束 没有 意义 了。 可见 ， 进 程 0 是 
一 个 特殊 的 进程 ， 它 的 执行 是 由 系统 当前 的 留守 十 
求 决 定 的 ， 时 间 片 轮转 这 套 机 制 并 不 适用 于 它 。 


接着 它们 都 会 继续 不 断 地 压 栈 ， 通 过 图 6-28 我 
们 可 以 看 出 这 一 点 。 这 三 个 用 户 进 程 在 线性 地 址 空 
间 内 压 入 它们 各 目的 栈 中 的 数据 都 是 连续 的 ， 但 在 
物理 空间 内 压 栈 的 数据 却 是 完全 “交错 ?分 布 的 。 


三 个 程序 执行 一 段 时 间 后 ， 压 入 它们 各 目的 栈 
中 的 数据 在 主 内 存 区 中 的 分 布 如 图 6-28 所 示 。 
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Al 6-28 三 个 程序 执行 一 段 时 间 后 压 栈 数 据 在 主 
内 存 区 的 分 布 


不 难 发 现 ， 任 何 时 刻 都 只 有 一 个 进程 在 执行 ， 
根本 不 存在 多 个 进程 同时 执行 的 情况 (所 谓 多 进程 
同时 执行 ， 只 是 人 的 主观 感受 ) 。 数 据 不 会 彼此 履 
其 ， 而 且 无 论 由 于 哪 种 情况 产生 进程 切换 ， 都 通过 
调用 schedule() 函数 来 进行 切换 。 这 个 函数 进行 
进程 切换 ， 就 会 用 TSS 和 LDT 全 套数 据 跟 着 进程 
走 ， 以 此 实现 对 进程 的 保护 。 


6.4.2 ”页 写 保护 


1. 进 程 A 和 进程 B 共 享 页 面 


假设 现在 系统 有 一 个 用 户 进 程 (进程 A)〉 ， 它 
自己 对 应 的 程序 代码 已 经 载 入 内 存 中 ， 此 时 该 进程 
内 存 中 所 占用 的 页 面 引用 计数 都 为 “1”， 接 下 来 它 
开始 执行 ， 通 过 调用 forkk 函 数 创 建 一 个 新 进程 ( 进 
程 B) 。 在 新 进程 创建 的 过 程 中 ， 系 统 将 进程 A 的 
页 表 项 全 部 复制 给 进程 B 并 设置 进程 B 的 页 目录 
项 。 此 时 这 两 个 进程 瓯 共 孕 页面， 被 共 孚 页 面 的 引 
用 计数 累加 为 2， 并 将 此 共享 页 面 全 部 设置 为 “只 
读 ” 属 性 ， 即 无 论 是 进程 A 还 是 进程 B， 都 只 能 对 这 
些 共享 的 页 面 进行 读 操 作 ， 而 不 能 是 写 操作 。 执 行 
代码 如 下 : 




















/代码 路 径 : mm/memory.c: 


int copy_page_tables (unsigned long from,unsigned long to,long size) 


for (; nr-->0; from_page_table++, to_page_tablet++) { 
this _page=*from_page_table; 

if C! (1&this_page) ) 

continue; 

this_page&=~2; /进程 A 对 页 面 的 操作 属性 被 设置 为 只 读 


*to_page_table=this_page; /进程 A 对 页 面 的 操作 属性 也 被 设置 为 只 


if (this_page>LOW_MEM) { 

*from_page_table=this_page; 

this _page-=LOW_MEM; 

this _page > >=12; 

mem _map[this_page]++; // 引 用 计数 记录 在 mem_map 中 ， 累 加 为 2 


} 


页 面 共有 圣 的 情况 如 图 6-29 所 示 。 
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图 629 进程 A 与 进程 B 共 享 页面 的 情况 


2. 进 程 A 准 备 进行 压 栈 操作 


我 们 假设 接 下 来 轮 到 进程 A 执行 ， 而 且 进 程 A 
接 下 来 的 动作 是 一 个 压 栈 动 作 ， 现 在 看 看 会 友 生 什 


六 


现在 进程 A 的 程序 对 应 的 所 有 页 面 都 是 只 读 状 
态 的 。 这 就 意味 着 ， 无 论 是 代码 所 占用 的 页 面 ， 
是 原先 压 栈 的 数据 所 对 应 的 页 面 ， 都 只 能 进行 读 操 
作 ， 不 能 进行 写 操作 。 然 而 ， 压 栈 动作 无 疑 是 一 个 
写 操作 ， 压 栈 时 对 应 的 线性 地 址 值 经 过 解析 后 肯定 
会 映射 到 只 读 页 面 中 ， 就 会 产生 一 个 “页 号 保护 ”中 
断 ， 如 网 6-30 所 示 。 
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图 6-30 ”进程 A 准备 执行 压 栈 动作 





3. 进 程 A 的 压 栈 动作 引发 页 面 写 保 护 


“页 写 保 护 ? 中 断 对 应 的 服务 程序 是 
un_wp_page O 函数 ， 函 数 执行 时 ， 先 要 在 主 内 存 
中 申请 一 个 空 几 页 面 〈 以 后 我 们 称 之 为 新 页 面 〉， 
以 便 备 份 刚 才 压 栈 的 位 置 所 在 页 面 《以 后 我 们 称 之 
为 原 页 面 ) 的 全 部 数据 ， 然 后 将 原 页 面 的 引用 计数 
减 1。 这 是 因为 ， 原 页 面 中 的 数据 即将 要 备份 到 新 
页 面 中 了 了， 进程 A 也 将 要 到 新 页 面 中 操作 数据 ， 而 
不 再 需要 与 原 页 面 维持 关系 了 ， 所 以 原 页 面 的 引用 
计数 减 1。 执 行 代码 如 下 : 

















/代码 路 入: mm/memory.c: 


void un_wp_page (unsigned long * table_entry ) 


if (! (new_page=get_free_page © ) ) /申请 到 新 页 面 
oom () ; 
if Cold_page >=LOW_MEM ) 


mem _map[MAP_NR (old_page) ]--; /页 面 引用 计数 递减 1 





执行 页 写 保护 操作 为 进程 A 新 申请 一 个 页 面 之 
后 的 主 内 存 分 布 如 图 6-31 所 示 。 
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A 6-31 为 进程 A 新 申请 一 个 页 面 存 储 压 栈 数 据 





值得 注意 的 是 ， 这 里 只 是 将 原 页 面 的 引用 计数 
减 1， 而 并 没有 彻 压 释放 。 这 是 因为 在 整个 操作 系 
统 中 ， 所 有 可 能 被 多 个 进程 所 共用 的 资源 ， 比 如 文 
FITR FEARR AFRE, ME 
引用 计数 来 表示 它们 被 使 用 的 状况 。 当 一 个 进程 与 
它们 解除 关系 后 ， 其 他 进程 未 必 都 与 它们 解除 了 天 
系 ， 简 单 的 “释放 ”是 不 行 的 。 











4. 将 进程 A 的 页 表 指 辣 新 申请 的 页 面 


新 页 面 虽 然 申请 到 了 ， 但 此 时 进程 A 的 页 表 中 
与 原 页 面 对 应 的 页 表 项 还 十 指 问 原 页 面 ， 没 有 页 表 
项 与 页 面 对 应 ， 最 终 还 是 无 法 找到 物理 地 址 的 。 所 
以 ， 现 在 还 需要 让 进程 A 的 页 表 中 指向 原 页 面 的 页 
表 项 改 为 指 癌 新 页 面 ， 并 将 其 使 用 的 属性 从 “只 
读 ? 改 变 为 “可 读 可 写 ”， 这 样 进程 A 才 具备 了 在 新 页 











面 中 处 理 数据 的 能 力 。 执 行 代码 如 下 : 





/代码 路 径 : mm/memory.c: 


void un_wp_page (unsigned long * table_entry ) 


if Cold_page >=LOW_MEM ) 
mem _map[MAP_NR (old_ page) ]--; 


*table_entry=new_page|7; /7 的 二 进 制 形式 为 111， 标 志 着 新 页 面 可 
读 可 写 了 


invalidate () ; 
copy _page (old_page,new_page) ; 


} 





此 操作 执行 完毕 后 ， 进 程 A 新 分 配 的 页 面 所 处 
的 状态 如 图 6-32 所 示 。 
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图 6-32 将 进程 A 的 页 表 与 新 申请 页 面 对 应 


5. 复 制 原 页 面 内 容 到 进程 A 新 申请 的 页 面 


一 切 准备 就 绪 后 ， 就 可 以 将 原 页 面 中 的 内 容 复 
制 到 新 页 面 中 了 。 复 制 之 后 ， 进 程 A 束 可 以 在 新 页 
面 中 完成 这 个 压 栈 动作 了。 执行 代码 如 下 : 


/代码 路 径 : mm/memory.c: 
void un_wp_page (unsigned long * table_entry ) 


{ 


if Cold_page >=LOW_MEM ) 

mem _map[MAP_NR (old page) ]--; 
*table_entry=new_page|7; 

invalidate () ; 


copy _page (old_page,new_page) ; /这 里 把 原 页 面 的 数据 复制 到 新 
页 面 ， 供 进程 A 使 用 


} 





复制 操作 完成 后 ， 进 程 A 新 申请 的 内 存 页 面 中 
的 存储 情况 如 图 6-33 所 示 。 
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图 6-33 将 原 页 面 内 容 复 制 到 进程 A 新 申请 的 页 
面 


6. 进 程 B 准 备 操作 共 至 页 面 





进程 A 执行 一 段 时 间 后 ， 束 该 轮 到 它 的 子 进程 
一 一 进程 B 执 行 了 。 进 程 B 仍 然 使 用 着 原 页 面 。 假 
设 也 要 在 原 页 面 中 进行 写 操 作 ， 但 是 现在 原 页 面 的 
属性 仍然 是 “只 读 ” 的 ， 这 一 点 在 进程 A 创建 进程 B 时 





就 是 这 样 设 置 的 ， 一 直 都 没有 改变 过 。 所 以 在 这 种 
情况 下 ， 又 需要 进行 页 写 你 护 处 理 ， 仍 然 是 映射 到 
un_wp_page O 函数 中 。 由 于 原 页 面 的 引用 计数 已 
经 和 补 削 减 为 了， 上 所 以 现在 融 要 将 原 页 面 的 属性 设 
曾 为 “可 读 可 写 ”， 执 行 代 人 码 如 下 : 








/代码 路 径 : mm/memory.c: 


void un_wp_page (unsigned long * table_entry ) 


ee 


old _page=Oxfffff000 & *table_entry; 

if Cold_page>=LOW_MEM& & 
mem_map[MAP_NR (old page ) ]==1) {/ 发 现 原 页 面 引 用 计数 为 1， 不 
用 共享 了 


*table_entry|=2; /2 的 二 进 制 形式 为 010，R/W 位 设置 为 1， 可 读 可 
写 


invalidate () ; 


return; 


进程 A 和 进程 B 在 压 栈 数据 的 处 理 方面 可 以 各 
目 操 作 不 同 的 页 面 了 。 这 些 页 面 都 是 可 读 可 写 的 ， 
而 且 引用 计数 都 为 1， 以 后 彼此 都 不 会 干扰 对 方 ， 
如 图 6-34 所 示 。 














现在 进程 B 并 没有 日 己 的 程序 。 如 果 将 来 它 有 
本目 己 的 程序 ， 丈 会 和 原 页 面 解除 天 系 ， 原 页 面 的 
引用 计数 将 会 继续 减 1， 于 是 驶 变 成 0， 系 统 将 认定 
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图 6-34 进程 B 将 原 共 享 页 面 性 质 修改 


7. 假 设 进 程 B 先 执行 压 栈 操作 的 情况 


我 们 重新 假设 ， 现 在 不 是 父 进程 一 一 进程 A 先 
执行 ， 而 是 子 进程 一 一 进程 B 先 执行 ， 那 么 义 会 出 
现 什么 情况 呢 ? 





这 种 情况 与 前 面 所 述 的 情况 是 对 称 的 ， 即 系统 
先 为 进程 B 申 请 一 页 面 空间 ， 然 后 让 进程 B 的 页 表 
中 与 原 页 表 相 对 应 的 页 表 项 指 癌 新 页 面 ， 最 后 将 原 


页 面 内 容 复制 给 新 页 面 ， 以 便 进 程 B 操 作 。 等 轮 到 
进程 A 执行 时 ， 原 页 面 被 设置 为 “可 读 可 写 ”"， 使 进 
程 A 仍 然 使 用 原 页 面 执行 数据 操作 。 

进程 B 先 执行 压 栈 操作 时 的 内 存 分 布 如 图 6-35 
所 示 。 
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Al 6-35 进程 B 先 执行 压 栈 操作 时 的 内 存 分 布 


值得 注意 的 是 ， 页 写 保护 是 一 个 由 内 核 执 行 的 
动作 ;在 整个 页 号 保护 动作 发 生 的 过 程 中 ， 用 户 进 








程 仍 然 正常 执行 ， 它 并 不 知道 自己 在 内 存 中 被 复制 
了 ， 也 不 知 志 自己 被 复制 到 哪个 页 面 了 。 





RAE 


从 前 面 的 讲解 、 分 析 ， 可 以 看 出 ， 在 Linux 
0.11《〈 准 确 地 说 是 UNIX 体 系 ) 的 设计 者 看 来 ， 所 谓 
的 操作 系统 就 是 若干 正在 操作 的 进程 构成 的 系统 ， 
所 谓 内 核 只 是 进程 的 延续 (所 以 才 有 用 户 态 、 内 核 
态 的 说 法 ) ， 这 是 他 们 的 设计 指导 思想 。 这 个 指导 
思想 可 以 很 好 地 解释 大 部 分 问题 。 但 为 进程 划分 线 
性 地 址 空间 、 分 页 、 时 钟 中 断 触发 的 进程 调度 .…… 


这 些 用 “延续 说 "不 太 容易 完全 解释 清楚 。 

















我 们 将 在 本 书 的 第 9 重演 试 提出 我 们 的 设计 指 


igh 


HAE 


6.5 本章 小 结 


本 章 是 全 书 中 难度 较 大 的 一 章 ， 详 细 讲 解 了 线 
性 地 址 、 分 页 、 进 程 调度 以 及 一 个 用 户 进程 从 创建 
到 退出 的 完整 过 程 和 同时 运行 多 个 用 户 进 程 。 


其 中 最 难 理解 的 是 线性 地 址 的 部 分 。 线 性 地 址 
的 设计 思路 体现 在 代码 的 字里行间 ， 所 以 看 似 简 
单 ， 实 际 很 难 掌握 。 理 解 线性 地 址 需要 整体 思考 操 
作 系 统 各 部 分 间 的 关系 ， 要 有 想象 力 ， 可 以 说 对 线 
性 地 址 理解 的 深度 相当 程度 上 影响 对 操作 系统 的 理 
解 水 平 。 








与 线性 地 址 类 似 ， 分 页 机 制 的 规则 似乎 也 不 复 
杂 ， 但 是 涉及 操作 系统 内 核 和 用 户 进程 运行 的 很 多 
方面 ， 加 之 与 线性 地 址 的 紧密 关系 ， 使 得 分 页 也 是 


比较 难以 掌握 的 。 


Linux 操 作 系 统 设 计 者 默认 内 核 是 进程 的 延 
续 ， 所 以 深入 理解 、 营 握 用 户 进程 运行 的 全 过 程 及 
多 进程 同时 运行 时 的 进程 调度， 对 理解 、 掌 握 
Linuxi k FRERE H. 





第 7 章 ”缓冲 区 和 多 进程 操作 文件 


前 面 的 章节 已 经 讲解 了 进程 、 文 件 系统 、 内 存 
党 理 。 从 这 些 讲解 中 我 们 能 够 感受 到 缓冲 区 横 跨 三 
者 ， 作 用 非常 重 要 。 要 想 深 刻 理解 操作 系统 ， 深 刻 
理解 进程 、 文 件 系统 、 内 存 管理 之 间 的 复杂 关系 ， 


必须 要 搞 清 楚 绥 冲 区 的 作用 完 葛 是 什么 。 





7.1 绥 冲 区 的 作用 





要 想 清 楚 绥 冲 区 的 作用 客 竟 是 什么 ， 不 妨 反 过 
来 思考 : 没有 缓冲 区 行 不 行 ? 没有 缓冲 区 会 遇 到 什 
ZRII? 


从 计算 机 的 物理 层面 上 看 ， 缓 冲 区 是 在 物理 内 
存 中 开辟 的 一 块 空间 ， 这 块 内 存 空 间 的 物理 性 质 与 
进程 所 占 的 内 存 空 间 没有 什么 本 质 的 不 同 。 块 设备 
(为 了 方便 ， 本 章 只 讨论 硬盘 ) 与 缓冲 区 交互 数据 
同 硬盘 与 进程 内 存 空 间 交 互 数据 从 物理 层面 上 看 完 
全 相同 ， 既 不 会 影响 交互 数据 的 正确 性 ， 也 不 会 影 
响 交 互 数据 的 传输 速度 。 从 这 个 角度 看 ， 没 有 缓冲 
区 没有 什么 不 可 以 ， 完 全 可 以 实现 进程 与 硬盘 的 数 
据 交 互 。 





由 此 可 见 ， 绥 冲 区 不 是 必须 的 ， 设 计 绥 冲 区 一 
定 是 为 了 使 操作 系统 运行 地 更 好 〈 锅 上 添 人 论 )〉。 





设计 缓冲 区 完 葛 能 给 操作 系统 的 运行 融 来 哪些 


好 处 ? 





我 们 认为 主要 体现 在 两 方面 : 


D 形成 所 有 块 设备 数据 的 统一 集散 地 ， 操 作 
系统 的 设计 更 方便 、 更 灵活 。 








2) 对 块 设备 的 文件 操作 运行 效率 更 高 。 


第 1 方面 比较 容易 理解 ， 第 2 方面 是 理解 操作 系 
统 的 难点 之 一 。 所 以 ， 这 一 章 我 们 将 通过 两 个 多 进 
程 操 作文 件 实例 ， 详 细 讲 解 缓冲 区 在 提高 块 设备 操 
作文 件 运行 效率 方面 的 设计 。 


仔细 观察 图 7-1， 可 以 及 现 这 里 面 似乎 有 一 个 
问题 ， 进 程 内 存 空间 与 绥 冲 区 内 存 空间 是 同样 的 内 
存 。 进 程 内 存 空间 与 硬盘 交换 数 据 的 时 候 ， 中 间 加 
上 一 个 缓冲 区 ， 只 会 增加 一 次 数据 在 内 存 中 倒 手 的 
时 间 ， 而 这 次 数据 倒 手 没有 任何 数据 处 理 ， 只 是 入 
单 的 倒 手 ， 应 该 只 会 增加 对 CPU 资源 的 消耗 ， 怎 么 
会 比 进程 直接 与 硬盘 交换 数据 还 快 呢 ? 
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与 内 存 的 数据 交互 的 速度 是 内 存 与 硬盘 数据 交互 速 
度 的 2 个 量 级 。 如 果 A 进 程 从 硬盘 读 到 缓冲 区 的 数 
据 ， 恰 好 也 是 B 进 程 需要 读 取 的 ，B 进 程 就 不 用 从 
人 硬盘 读 取 ， 可 以 直接 从 缓冲 区 中 读 取 ，B 进 程 所 花 
费 的 时 间 大 约 只 有 A 进 程 读 取 这 个 数据 的 百 分 之 
一 。 效 率 一 下 子 提 高 了 2 个 量 级 。 如 果 还 有 C 进 程 、 
D 进 程 、E 进 程 ..…… 恰 好 都 需要 读 取 这 个 数据 ， 计 
算 机 的 整体 效率 就 会 大 大 提高 。 这 是 缓冲 区 共享 的 
一 种 模式 ， 就 是 不 同 进程 之 间 共 享 缓冲 区 中 的 数 
据 。 如 果 A 进 程 读 取 、 使 用 完 这 个 数据 ， 过 了 一 段 
时 间 需 要 再 一 次 读 取 这 个 数据 ， 此 时 这 个 数据 还 停 
留 在 缓冲 区 ，A 进 程 就 可 以 直接 从 缓冲 区 中 读 取 ， 
不 需要 花费 100 倍 的 时 间 从 硬盘 上 读 取 。 这 是 共享 
的 另 一 种 模式 ， 就 是 同一 个 进程 在 不 同时 间 多 次 共 
享 缓冲 区 中 的 同一 个 数据 。 再 有 就 是 这 两 种 模式 的 



































组 合 模 式 。 以 上 分 析 的 是 读 操 作 的 共 圣 。 写 操作 的 


共 圣 与 此 类 似 。 





仔细 思考 上 面 的 分 析 ， 可 以 友 现 ， 要 想 通 过 绥 
冲 区 的 设计 提高 操作 系统 读 写 文件 的 整体 效率 ， 驳 
应 该 尽 可 能 多 地 共 盏 缓冲 区 中 的 数据 。 而 尽 可 能 多 
地 共 盏 缓冲 区 中 的 数据 ， 最 有 效 、 最 直接 的 方法 束 
是 让 绥 冲 区 中 的 数据 在 缓冲 区 中 保留 的 时 间 尺 可 能 
tk! 





可 以 说 ， 绥 冲 区 的 所 有 的 代码 都 是 围绕 着 如 何 
保证 数据 交互 的 正确 性 、 如 何 让 数据 在 缓冲 区 中 集 
留 的 时 间 尽 可 能 长 来 设计 的 。 本 章 后 续 的 内 容 将 通 
过 两 个 实例 ， 详 细 讲 解 操 作 系 统 代码 是 如 何 实 
现 “ 让 数据 在 缓冲 区 中 保留 的 时 间 尺 可 能 长 * 这 个 目 
标的 。 





7.2 ”缓冲 区 的 总 体 结 构 


绥 冲 区 涉及 进程 、 内 存 、 文 件 ， 内 容 很 多 ， 代 
人 码 庞杂 ， 很 不 容易 看 情 ， 是 理解 操作 系统 的 难点 之 
一 。 为 了 更 好 地 学 习 、 和 掌握 绥 冲 区 的 设计 ， 我 们 先 
仿 匣 缓冲 区 的 总 体 结构 ， 如 图 7-2 所 示 。 
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图 7-2 缓冲 区 、buffer_ head、request 的 格局 图 


在 Linux 操 作 系 统 中 ， 为 缓冲 区 配套 地 设计 了 


两 个 非常 重要 的 管理 信息 : buffer_head. request. 

其 中 buffer_head 主 要 负责 进程 与 缓冲 区 中 的 缓冲 块 
的 数据 交互 ， 在 确保 数据 交互 正确 的 前 提 下 ， 让 数 
据 在 绥 冲 区 中 停留 的 时 间 尽 可 能 长 ;request 主要 负 
责 缓冲 区 中 的 数据 与 块 设备 之 间 的 数据 交互 ， 在 确 
保 数据 交互 正确 的 前 提 下 ， 尽 可 能 及 时 地 将 进程 修 
改过 的 缓冲 块 中 的 数据 同步 到 块 设备 上 。 





这 两 个 管理 信息 的 数据 结构 代码 如 下 : 





/代码 路 径 : include/linux/fs.h: 

struct buffer_head{ 

char * b_data; /*pointer to data block (1024 bytes) */ 
unsigned long b_blocknr; /*block number*/ 

unsigned short b_dev; /*device (0=free) */ 


unsigned char b_uptodate; 


unsigned char b_dirt; /*O-clean, 1-dirty*/ 
unsigned char b_count; /*users using this block*/ 
unsigned char b_lock; /*0-ok, 1-locked*/ 
struct task_struct * b_wait; 

struct buffer_head * b_prev; 

struct buffer_head * b_next; 

struct buffer_head * b_prev_free; 

struct buffer_head * b_next_free; 

}; 

/代码 路 径 : kernel/blk_drv/blk.h: 

struct request{ 

int dev; /*-1 if no request*/ 

intcmd; /*READ or WRITE*/ 

int errors; 

unsigned long sector; 

unsigned long nr_sectors; 


char * buffer; 


struct task_struct * waiting; 
struct buffer_head * bh; 
struct request * next; 


}; 


下 面 将 详细 讲解 为 什么 要 设计 这 个 数据 结构 ， 
以 及 这 个 数据 结构 是 如 何 做 到 “让 数据 在 缓冲 区 中 
停留 的 时 间 尽 可 能 长 ”的 。 





7.3 b dev、b_blocknr 及 request 的 作用 


b_dev 和 b_blocknr 这 两 个 字段 是 buffer_head 结 
构 中 非常 重要 的 两 个 字段 ， 是 缓冲 区 支持 多 进程 共 
享 文件 的 基础 。 它 们 既是 正确 性 的 基础 ， 又 是 “让 
数据 在 缓冲 区 中 停留 的 时 间 尽 可 能 长 ”的 基础 。 下 
面 先 来 介绍 这 两 个 字段 是 如 何 确保 正确 性 的 。 








7.3.1 ”保证 进程 与 绥 冲 块 数据 交互 的 正确 
性 


进程 与 缓冲 区 不 是 以 文件 为 日 位、 而 是 以 缓冲 
块 为 单位 进行 数据 交互 的 ， 一 次 交互 各 干 个 块 ， 数 
iD PTR A eR BHD 
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人 硬盘 块 的 单位 大 小 一 致 。 进 程 操 作文 件 时 ， 由 进程 
提出 的 文件 操作 请 求 ， 最 终 由 操作 系统 落实 到 与 便 
盘 上 具体 东 个 数据 块 进行 区 互 。 有 了 缓冲 区 ， 进 程 
和 便 盘 上 的 数据 块 不 是 下 接 交 互 数据 ， 而 是 通过 绥 
冲 块 再 进行 交互 。 你 证 数据 交互 的 正确 性 ， 冯 先 要 
保证 便 检 上 的 数据 块 与 缓冲 块 必须 严格 对 应 。 





因为 硬盘 的 设备 号 、 块 号 能 唯一 确定 硬盘 块 ， 
第 2 章 讲解 过 每 一 个 缓冲 块 都 有 唯一 的 一 个 
buffer_head 管 理 ， 所 以 ， 操 作 系 统 采取 的 策略 是 ， 
内 核 通过 buffer_head 结 构 中 的 b_dev 和 b_blocknr 两 
个 字段 ， 把 缓冲 块 和 硬盘 数据 块 的 关系 绑 定 。 这 
样 ， 就 保证 了 硬盘 块 与 缓冲 块 关系 的 唯一 性 ， 进 
程 、 绥 冲 块 的 数据 交互 与 进程 、 硬 盘 数 据 块 的 数据 
交互 等 价 ， 确 保 数据 交互 不 会 出 现 混 乱 。 代 码 如 





/代码 路 径 : fs/buffer.c: 

struct buffer_head * getblk (int dev,int block) /申请 绥 冲 块 
{ 

repeat: 


if (bh=get_hash_table (dev,block) ) /如 果 发 现 缓冲 块 与 指定 设备 
(dev) 指定 数据 块 (block) GABE 


return bh; /返回 ， 直 接 使 用 


tmp=free_lists /如 果 没 找到 符合 指定 标准 的 绑 定 缓冲 块 ， 就 申请 新 
缓冲 块 


do{ 

if (tmp->b_count) 

continue; 

if (! bh|IBADNESS (tmp) <BADNESS (bh) ) { 
bh=tmp; 


if (! BADNESS (tmp) ) 


break; 

/*and repeat until we find something good*/ 

while ( (tmp=tmp->b_next_free) ! =free_list) ; 

/*OK,FINALLY we know that this buffer is the only one of it's kind, */ 


/*and that it's unused (b_count=0) , unlocked (b_lock=0) , and 
clean*/ 


bh->b_count=1; 

bh->b_dirt=0; 

bh- >b_uptodate=0; 

remove _from_queues (bh) ; 

bh->b_dev=dev; /对 新 缓冲 块 的 设备 号 进行 设置 
bh->b_blocknr=block; // 对 新 缓冲 块 的 块 号 进行 设置 
insert _into_queues (bh) ; 


return bh; 


从 以 上 代码 中 可 以 看 出 ， 新 申请 缓冲 块 的 时 候 
就 将 缓冲 块 与 数据 块 的 关系 锁 死 ， 使 得 内 核 在 进程 
方向 上 ， 只 要 将 文件 的 操作 位 置 确定 ， 并 将 其 转换 
成 p_dev、b_blocknr 残 可 以 了 ， 硬 盘 数 据 块 与 绥 冲 
块 的 关系 不 用 考虑 ， 最 终 与 硬盘 的 交互 肯定 是 正确 
的 。 


读 文件 时 ， 内 核 通过 文件 操作 指针 计算 出 文件 
数据 内 容 所 在 的 b_dev、b_blocknr， 进 程 方面 的 延 
伸 到 缓冲 块 为 止 ， 执 行 bread O 函数 以 后 就 不 再 与 
硬盘 数据 块 直接 打交道 了 。 代 码 如 下 : 





/代码 路 径 : fs/file_dev.c: 


int file_read (struct m_inode * inode,struct file * filp,char * buf,int 
count) /该 文件 


ee 


if ( Ceft=count) <=0) 
return 0; 
while (left) { 


if (nr=bmap (inode, (filp->f_pos) /BLOCK_SIZE) ) {/ 通 过 文 
件 偏 移 指针 ， 计 算出 块 号 


if C! (bh=bread (inode->i_dev,nr) ) ) / 实 参 中 inode- 之 i_ dev 就 
是 设备 号 ，nr 就 是 块 号 


break; 

}else 

bh=NULL; 

nr=filp- > f_pos%BLOCK_SIZE; 


chars=MIN (BLOCK_SIZE-nr,left) ; 


ee 


ee 


/代码 路 径 : fs/buffer.c: 


struct buffer head * bread (int dev,int block) W/W/ 读 取 底 层 块 设备 数据 


{ 
struct buffer_head * bh; 


if C! (bh=getblk (dev,block) ) ) /申请 缓冲 块 时 要 用 到 设备 号 和 
块 号 


panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate ) 
return bh; 








与 读 文 件 类 似 ， 写 文件 时 ， 内 核 通 过 文件 操作 
指针 计算 出 文件 数据 内 容 所 在 的 b_dev 和 
b_blocknr， 进 程 方面 的 延伸 到 此 为 止 。 代 码 如 下 : 








/代码 路 径 : fs/file_dev.c: 


int file_write (struct m_inode * inode,struct file * filp,char * buf,int 


count) // C+ { 


if (filp->f_flags & O_APPEND ) 
pos=inode- > i_size; 

else 

pos=filp- > f_pos; 

while (i<count) { 


if (! (block=create_block (inode,pos/BLOCK_SIZE) ) ) /通过 文 
件 偏 移 指 针 ， 计 算出 块 号 


break; 


if C! (bh=bread (inode->i_dev,block) ) ) //#&Hinode->i_dev 
Heit Ss, niey 


break; 
c=pos%*BLOCK_SIZE; 
p=c+bh- > b_data; 


bh->b_dirt=1; 


ee 


/代码 路 径 : fs/buffer.c: 

struct buffer_head * bread Cint dev,int block) V 读 取 底 层 块 设备 数据 
{ 

struct buffer_head * bh; 


if C! (bh=getblk (dev,block) ) ) /申请 缓冲 块 时 要 用 到 设备 号 和 


panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate ) 
return bh; 
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理 信息 时 也 是 如 此 。 





内 核 读 取 i 节 点 时 ， 点 号 以 及 超级 块 中 
的 信息 ， 计 算出 请 点 所 在 的 b dev 和 b_blocknr， 而 
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/代码 路 径 : fs/inode.c: 


static void read_inode (struct m_inode * inode) // 读 i 节点 


lock _inode (inode) ; 
if C! (sb=get super (inode->i_dev) ) ) 
panic ("trying to read inode without dev") ; 


block=2+sb- 之 Ss_imap_blocks+sb- 之 s_zmap_blocks+/ 通 过 i 节 点 号 和 
超级 块 信息 ， 确 定 了 block 块 号 ) 


(inode->i_num-1) /INODES_PER_BLOCK; 


if C! (bh=bread (inode->i_dev,block) ) ) //#&Hinode->i_dev 
就 是 设备 写 ，nr 就 是 块 写 


panic ("unable to read i-node block") ; 
* (struct d_inode *) inode= 


( (struct d_inode *) bh->b_data) 


[ (inode->i_num-1) %INODES PER BLOCK]; // 从 缓冲 块 中 提取 i 
节点 ， 载 入 inode_table[32] 


brelse (bh) ; 

unlock _inode (inode) ; 

} 

/代码 路 径 : fs/buffer.c: 

struct buffer_head * bread Cint dev,int block) V 读 取 底 层 块 设备 数据 
{ 

struct buffer_head * bh; 


if C! (bh=getblk (dev,block) ) ) /申请 缓冲 块 时 要 用 到 设备 号 和 
块 号 


panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate ) 
return bh; 





与 内 核 读 i 节 点 类 似 ， 内 核 写 入 i 节点 时 ， 
点 号 以 及 超级 块 中 的 信息 ， 计 算出 节点 所 在 的 
b_dev 和 b_blocknr， 动 作 到 此 为 止 。 代 码 如 下 : 














/代码 路 径 : fs/inode.c: 


static void write inode (struct m_inode * inode) // 写 i 节点 


if C! (sb=get super (inode->i_dev) ) ) 
panic ("trying to write inode without device") ; 


block=2+sb- 之 S_imap_blocks+sb- 之 s_zmap_blocks+/ 通 过 i 节 点 号 和 
超级 块 信息 ， 确 定 了 block( 块 号 ) 


(inode->i_num-1) /INODES_PER_BLOCK; 


if C! (bh=bread (inode->i_dev,block) ) ) //#&Hinode->i_dev 
WERA, orgies 


panic ("unable to read i-node block") ; 


( (struct d_inode *) bh->b_data) 


[ (inode->i_num-1) %INODES_PER_BLOCK]= 


* (struct d_inode *) inode; /从 inode table[32] 中 提取 i 节点 ， 载 入 
缓冲 块 


bh->b_dirt=1; 
inode- > i_dirt=0; 


ee 


/代码 路 径 : fs/buffer.c: 


struct buffer head * bread (int dev,int block) // 读 取 底 层 块 设备 数据 


struct buffer_head * bh; 


if C! (bh=getblk (dev,block) ) ) /申请 缓冲 块 时 要 用 到 设备 号 和 
块 号 


panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate ) 
return bh; 


同样 ， 内 核 加 载 超 级 块 时 ， 通 过 传递 下 来 的 设 
备 号 和 指定 的 块 号 ， 计 算出 超级 块 、i 节 点 位 图 、 逻 
辑 块 位 图 所 在 的 b _dev 和 b_blocknr， 动 作 延 伸 至 
此 。 人 代码 如 下 : 








/代码 路 径 : fs/super.c: 


static struct super_block * read_super Cint dev) / 读 取 超级 块 


s->s_time=0; 

s- >s_rd_only=0; 
s->s_dirt=0; 

lock _super (s) ; 


if C! (bh=bread (dev, 1) ) ) {//1 就 是 块 号 ， 超 级 块 是 设备 中 1 
号 数据 块 


s->s_dev=0; 


free super (s) ; 

return NULL; 

} 

* ( (struct d_super_block *) s) = 

* ( (struct d_super_block *) bh->b_data) ; 
brelse (bh) ; 

if (s->s_magic! =SUPER_MAGIC) { 

s- >s_dev=0; 

free _super (s) ; 


return NULL; 


ee 





block=2; /2 是 第 一 个 i 太 点 位 图 的 块 号 
for (i=0; i<s->s_imap_blocks; i++) 
if (s->s_imap[i]=bread (dev,block) ) 
block++; 


else 


break; 


for (i=0; i<s->s_zmap_blocks; i++) //block#AM AM, KH LEI 
载 超级 块 位 图 


if (s->s_zmap[i]=bread (dev,block) ) 

block++; 

else 

break; 

if (block! =2+s->s_imap_blocks+s->s_zmap_blocks) { 
for (i=0; i<I MAP_ SLOTS; i++) 

brelse (s->s_imap[i]) ; 


/代码 路 径 : fs/buffer.c: 


struct buffer head * bread (int dev,int block) AZ HJK ERK A Ae 


struct buffer_head * bh; 


if C! (bh=getblk (dev,block) ) ) /申请 缓冲 块 时 要 用 到 设备 号 和 
块 号 


panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate ) 
return bh; 


以 上 代码 表明 ， 进 程 方向 上 ， 只 要 把 缓冲 块 对 
应 的 设备 号 和 块 号 确定 ， 正 确 性 就 有 保证 ， 
getblk () 函数 包揽 了 绑 定 的 工作 。 








从 硬盘 方向 看 ， 内 核 通过 另 一 个 数据 结构 
(request) 来 支持 缓冲 块 与 硬盘 的 交互 ， 请 求 项 中 
设备 号 dev 和 块 的 首 扇 区 号 sector〈 块 是 操作 系统 的 
概念 ， 硬 盘 只 有 扇 区 的 概念 ) 决定 了 数据 交互 的 位 
置 。 而 这 两 个 字段 的 数值 ， 也 是 通过 buffer_head 中 
b_dev 和 b_blocknr 两 个 字段 的 值 来 设置 的 。 这 说 








明 ， 只 要 缓冲 块 的 设备 号 和 块 号 确定 了 了， 内 核 通过 
WRG MEER ALIN, ee GS PBK a AE 
了 ， 不 需要 再 往 进 程 方面 延伸 ， 去 考 夸 进程 的 文件 
操作 问题 。 代 码 如 下 : 








/代码 路 径 : kernel/blk_drv/ll_rw_blk.c: 

void ]]_rw_block (int rw,struct buffer_ head * bh) /底层 块 设备 操作 
{ 

unsigned int major; 

if ( (major=MAJOR (bh->b_dev) ) >=NR_BLK_DEV]| 

! (blk_dev[major].request_fn) ) { 

printk ("Trying to read nonexistent block-device\n\r") ; 

return; 

} 

make _request (major,rw,bh) ; /设置 请 求 项 


} 


static void make_request (int major,int rw,struct buffer_head * bh) 


if (req<request) { 
if (rw_ahead) { 
unlock _buffer (bh) ; 


return; 


sleep _on ( &wait_for_request) ; 

goto repeat; 

} 

req->dev=bh->b_dev; /用 缓冲 块 中 的 b_dev 设 置 请 求 项 
req- > cmd=rw; 

req- > errors=0; 


req- > sector=bh->b_blocknr< <1; /用 缓冲 块 中 的 b_blocknr 设 置 请 
求 项 


req- > nr_sectors=2; 


req- > buffer=bh- >b_data; 

req- > waiting=NULL; 

req- > bh=bh; 

req- >next=NULL; 

add _request (majort+blk_dev,req) ; // 加 载 请 求 项 
} 


static void add_request (struct blk_dev_struct * dev,struct request * 
req) 


if (! (tmp=dev->current_request) ) { 
dev- > current_request=req; 
sti O) ; 
(dev->request_fn) (©) ; /下 达 硬 盘 操 作 命令 


return; 


ecco oo 


} 
/代码 路 径 : kernel/blk_drv/hd.c: 


void do_hd_request (void) 


INIT REQUEST; 

dev=MINOR (CURRENT->dev) ; /从 请 求 项 中 获取 设备 号 
block=CURRENT->sector; // 从 请 求 项 中 获取 块 号 

if (dev>=5*NR_HDllblock+2>>hd[devlj.nr_sects) { 

end _request (0) ; 


goto repeat; 


ee 


_asm _ ("divl%4": "=a" (block) , "=d" (sec) : "0" (block) , ' 
通过 块 写 // 来 换算 磁 涉 、 忆 区、 柱 面 等 参数 


"r" Chd_info[dev].sect) ) ; 


_asm ("divl%4": "=a" (cyl) , "=d" (head) : "0" (block) , ™ 


"r" Chd_info[dev].head) ) ; 
SeC 十 十 ; 


nsect=CURRENT-~>nr_sectors; 


Se EAT, FEREMOT IRAE, FEZ ARI OC TEER 
作 ， 比 如 对 文件 任意 部 分 修改 、 插 入 或 删除 数据 
Se, REGENTS FEM ERE, LAE PRUE 
正确 性 ， 从 进程 方 同 看， 与 缓冲 块 区 互 等 价 于 与 便 
tt BUH TRAC H o 


Ne 





图 7-3 有 反映 了 加 写 的 数据 正好 在 一 个 块 内 的 情 


FA 
AK o 





进程 的 数据 … 
缓冲 区 .… 


<T 再 载 入 进程 空间 


OO 先 载 入 缓冲 块 












进程 的 数据 … 
~ 重新 申请 缓冲 块 , 并 将 拼接 后 的 教 据 写 入 
MK, = pore HENA CR SRA 
he tt oa 


文件 A 文件 8 ”文件 A 


图 7-3 块 内 加 写 情景 


图 7-4 反 映 了 块 则 加 写 数 据 的 情景 。 







一” 再 载 入 进程 空间 
OOO 先 载 入 缓冲 块 





一 一 重新 申请 缓冲 块 , 并 将 拼接 后 的 数据 写 入 





U G HERE BG IG 
文件 A 文件 8 ”文件 A 


图 7-4 块 间 加 写 情 景 


7.3.2 LESTE SE AAS Be EYE TA] JS a 


a> 
CE 
不 


b_dev 和 b_blocknr 不 仅 保证 了 正确 性 ， 而 且 是 
数据 在 缓冲 区 中 多 停留 一 段 时 间 的 基础 。 








数据 是 合集 留 在 缓冲 区 中 的 标志 是 ， 绥 冲 块 是 
售 还 与 使 盘 的 数据 块 存在 绑 定 关系 。 人 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 

struct buffer_head * getblk (int dev,int block) /申请 绥 冲 块 
{ 

struct buffer_head * tmp, *bh; 

repeat: 


if (bh=get_hash_table (dev,block) ) /试图 从 尚且 存在 绑 定 关系 的 
缓冲 块 中 沿用 


return bh; 


tmp=free_list; 


ee 


if (! (bh=find_buffer (dev,block) ) ) /查找 设备 号 和 块 号 符合 要 
求 的 缓冲 块 


return NULL; 
bh->b_count++; 


wait _on_buffer (bh) ; 


static struct buffer_head * find_buffer (int dev,int block ) 


{ 
struct buffer_head * tmp; 


for (tmp=hash (dev,block) ; tmp! =NULL; tmp=tmp->b_next) // 
Ha Fy ey A Ze aE FT CL OT 


if (tmp->b_dev==dev & & tmp->b_blocknr==block ) 
return tmp; /如 果 找 到 现成 的 ， 就 返回 tmp 
retum NULL; /如 果 没 找到 现成 的 ， 就 返回 NULL 


} 


从 上 面 代 码 中 可 以 看 出 ， 内 核 从 哈 希 表 中 搜索 
现成 的 绥 冲 块 时 ， 只 看 设备 写 和 块 写 ， 其 他 的 什么 
MAE. RATERS ETE BE RB ERRET 
在 ， 就 认定 数据 块 中 的 数据 仍然 停留 在 缓冲 块 中 ， 
就 可 以 直接 用 ， 不 需要 从 硬盘 上 该 取 ， 节 省 了 100 
倍 的 使 盘 读 取 时 间 。 





如 果 在 缓冲 区 中 找 了 一 表 ， 所 有 绥 冲 块 部 已 经 


与 硬盘 中 的 数据 块 建立 了 绑 定 关 系 ， 但 b_dev、 
b_blocknr 又 都 不 是 进程 所 需要 的 ， 实 在 找 不 到 合适 
的 ， 那 就 只 能 找 一 个 暂时 没有 进程 使 用 〈b_count 为 
0) 的 空闲 缓冲 块 ， 废 掉 已 经 存在 的 绑 定 关系 ， 用 
新 的 绑 定 关系 取而代之 ， 即 新 建 缓冲 块 。 到 此 为 
止 ， 硬 盘 数 据 块 中 的 数据 才 算 不 在 缓冲 块 中 停留 
J. TSF: 








/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block) /申请 绥 冲 块 


if (find_buffer (dev,block) ) 
goto repeat; 
bh->b_count=1; 


bh->b_dirt=0; 


bh- >b_uptodate=0; 

remove _from_queues (bh) ; 
bh->b_dev=dev; 
bh->b_blocknr=block; 

insert _into_queues (bh) ; 
return bh; 


} 





PAT SAN Ee, Bra Ze RS AH 
块 建立 绑 定 关 系 。 新 申请 一 个 缓冲 块 会 有 两 种 情 
景 。 一 种 是 操作 系统 刚 启 动 的 时 候 ， 该 缓冲 块 没 有 
和 任何 数据 块 建立 绑 定 关 系 。 另 一 种 是 操作 系统 已 
经 运行 了 一 段 时 间 ， 执 行 过 充分 多 的 文件 读 写 操 
作 ， 所 有 缓冲 块 都 与 硬盘 数据 块 建立 了 绑 定 关 系 ， 
而 且 所 有 的 缓冲 块 与 新 申请 的 缓冲 块 的 bp_dev、 
b_blocknr 不 符 ， 不 能 共享 。 所 以 只 能 在 暂时 没有 进 














程 使 用 (b_count 为 0〉 的 缓冲 块 中 ， 强 行 占 用 一 个 
缓冲 块 。 在 这 种 情景 下 ， 这 两 行 代 人 码 束 有 两 层 意 


FA 


JC S 


1) 建立 一 个 新 的 缓冲 块 与 便 盘 数据 块 之 间 的 
绑 定 关系 产生 。 


2) 废除 之 前 的 缓冲 块 与 便 盘 数据 块 的 绑 定 天 
Reo 


值得 注意 有 的 是 ， 为 了 让 数据 块 中 的 数据 尽 可 能 
长 时 间 地 保留 在 缓冲 块 中 ， 内 核 中 没有 任何 机 制 、 
也 没有 任何 代码 能 够 将 已 经 建立 了 绑 定 关系 的 缓冲 
块 、 硬 盘 数 据 块 ， 刻 意 地 、 主 动 地 解除 绑 定 关系 。 
只 有 在 迫不得已 的 情况 下 ， 才 被 新 建立 的 绑 定 关系 
强行 丛 换 。 所 有 这 些 的 目的 只 有 一 个 ， 束 是 尽 可 能 














使 数据 在 绥 神 区 中 停留 更 长 的 时 间 。 现 在 ， 我 们 可 
以 看 出 ，b_dev 和 b_blocknr 是 硬盘 数据 块 的 时 间 在 
缓冲 区 中 停留 更 长 时 间 的 非常 重要 的 管理 信息 。 














反观 请 求 项 request 的 设计 思路 ， 和 缓冲 区 正好 
相反 ， 它 的 目的 是 ， 尽 可 能 快 地 让 缓冲 块 和 硬盘 交 
互 数 据 。 前 面 我 们 介绍 到 ，request 中 也 有 与 b_dev 
和 b_blocknr 类 似 的 字段 ， 它 们 就 是 设备 写 dev 和 块 
的 首 忆 区 号 sector。 它 们 除了 保证 缓冲 块 和 便 盘 数 
据 块 交互 的 正确 性 外 ， 更 多 的 是 尽 可 能 快 地 让 组 冲 
块 和 数据 块 进行 交互 。 我 们 来 看 如 下 代码 : 














/代码 路 径 : kernel/blk_drv/ll_rw_blk.c: 
void ll_rw_block (Cint rw,struct buffer_head * bh) // 底 层 块 设备 操作 
{ 


unsigned int major; 


if © (major=MAJOR (bh->b_dev) ) >=NR_BLK_DEV]| 
! (blk_dev[major].request_fn) ) { 

printk ("Trying to read nonexistent block-device\n\r") ; 
return; 

} 

make _request (major,rw,bh) ; /设置 请 求 项 

} 


static void make_request (int major,int rw,struct buffer_head * bh) 


if (req<request) { 

if (rw_ahead) { 

unlock _buffer (bh) ; 

return; 

} 

sleep _on ( &wait_for_request) ; 


goto repeat; 


} 

req->dev=bh->b_dev; /用 缓冲 块 中 的 b_dev 设 置 请 求 项 
req- 之 cmd=rw; 

req- > errors=0; 


req- > sector=bh->b_blocknr< <1; /用 缓冲 块 中 的 b_blocknr 设 置 请 
求 项 


req- > nr_sectors=2; 

req- > buffer=bh- > b_data; 

req- > waiting=NULL; 

req- > bh=bh; 

req- >next=NULL; 

add _request (majort+blk_dev,req) ; // 加 载 请 求 项 
} 


static void add_request (struct blk_dev_struct * dev,struct request * 
req) 


struct request * tmp; 


req- >next=NULL; 


cli ©) ; 
if (req->bh) 


req- > bh- >b_dirt=0; 





if C! (tmp=dev->current_request) ) {// 只 要 硬盘 空 几 ， 就 立即 让 
当前 请 求 项 对 应 的 缓冲 块 和 硬盘 进行 交互 


dev- > current_request=reg.:; 

sti(); 
(dev->request_fn) © ; 

return; 

} 


for (; tmp->next; tmp=tmp->next) /如 果 硬 租 忙 着 ， 就 把 请 求 项 
载 入 请 求 项 队列 


if ( (IN_ORDER (tmp,req) || 

! IN_ORDER (tmp,tmp->next) ) & & 
IN_ORDER (req,tmp->next) ) 

break; 

req->next=tmp->next; //next 指 针 用 来 组 建 队 列 


tmp->next=req; 


sti O) ; 


add_request 函 数 执行 时 会 出 现 两 种 情况 : 如 果 
人 硬盘 是 空闲 的 ， 就 让 硬盘 处 理 当 前 请 求 项 的 请 求 ; 
如 果 硬 盘 是 忙 的 ， 即 正在 处 理 某 个 请 求 项 ， 这 时 候 
又 有 请 求 项 来 了 ， 就 把 这 些 请 求 项 插入 请 求 项 队 
列 ，next 指 针 用 来 组 建 请 求 项 队列 ， 情 景 如 图 7-5 所 


人 小。 


C-O-O-O-0 


请 求 项 队列 





图 7-5 组 建 请 求 项 队列 的 情景 


我 们 再 来 看 处 理 请 求 项 队列 中 各 项 的 代码 : 





/代码 路 径 : kernel/blk_drv/hd.c: 
static void read_intr (void) 

{ 

if Cwin_result © ) { 

bad _rw intr () ; 

do _hd_request () ; 

return; 

} 

port _read (HD_DATA,CURRENT->buffer, 256) ; 
CURRENT- > errors=0; 
CURRENT- > buffer+=512; 
CURRENT- >sector++; 

if (--CURRENT->nr_sectors) { 


do _hd=&read_intr; 


return; 
l 


end_request (1) ; /处 理 完 一 个 请 求 项 后 处 理 善 后 工作 





do _hd_request © ; // 如 果 还 有 剩余 请 求 项 ， 继 续 下 达 交 互 指令 ; 
WRIA, WE 








static void write_intr (void) 

{ 

if Cwin_result © ) { 

bad _rw_intr ©) ; 

do _hd_request () ; 

return; 

} 

if (--CURRENT->nr_sectors) { 
CURRENT- >sector++; 
CURRENT- > buffer+=512; 


do _hd=&write_intr; 


port write (HD_DATA,CURRENT->buffer, 256) ; 
return; 


} 


end_request (1) ; // 处 理 完 一 个 请 求 项 后 处 理 善后 工作 





do _hd_request © ; /如 果 还 有 剩余 请 求 项 ， 继 续 下 达 交 互 指令 ; 
WRIA, WE 








} 

void do_hd_request (void) 
{ 

int i,r; 

unsigned int block,dev; 
unsigned int sec,head,cyl; 


unsigned int nsect; 





INIT REQUEST; /就 在 这 里 判断 是 否 还 有 剩余 的 请 求 项 
dev=MINOR (CURRENT->dev) ; 
block=CURRENT- > sector; 


if (dev>=5*NR_HD]|block+2>hd[dev].nr_sects) { 


end _request (0) ; 


goto repeat; 


ee 


/代码 路 径 : kernel/blk_drv/hd.c: 


extern inline void end_request (int uptodate ) 


ee 


wake _up (& CURRENT->waiting) ; 
wake _up (&wait_for_request) ; 
CURRENT- > dev=-1; 


CURRENT=CURRENT->next; /将 当前 请 求 项 设置 为 下 一 个 ， 为 
处 理 剩 余 请 求 项 做 准备 


#define INIT_REQUEST\ 
repeat: \ 


if (! CURRENT) VWCURRENT 为 室 ， 说 明 没 有 剩余 请 求 项 了 


return; \ 

if (MAJOR (CURRENT->dev) ! =MAJOR_NR) \ 
panic (DEVICE_NAME": request list destroyed") ; \ 
if (CURRENT->bh) {\ 

if C! CURRENT->bh->b_lock) \ 

panic (DEVICE_NAME": block not locked") ; \ 


} 


从 以 上 代码 中 可 以 看 出 ， 无 论 是 读 盘 中 断 服 务 
程序 还 是 写 盘 中 断 服 务 程序 ， 在 执行 完 一 对 缓冲 块 
和 数据 块 的 交互 后 ， 都 要 调用 end_request © 函数 
Alldo_hd_request © 函数 ， 这 样 束 形成 了 处 理 请 求 
项 队列 中 的 请 求 项 的 循环 操作 。do_hd_request © 
函数 中 INIT_REQUEST 这 个 宏 ， 用 以 判断 循环 是 否 
结束 。 如 果 当 前 请 求 项 不 为 空 ， 即 队列 中 还 有 请 求 
项 对 应 的 缓冲 块 需要 交互 ， 就 继续 下 达 交 互 命令 ， 
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CURRENT 为 空 ， 然 后 返回 。 此 循环 处 理 的 情景 如 
图 7-6 所 示 。 
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图 7-6 处 理 请 求 项 队列 的 情景 


请 求 项 这 样 设计 的 目的 只 有 一 个 ， 就 是 要 尽快 
LETH ER A tik BUDE RTE TT 30 H. 





值得 关注 的 是 请 求 项 的 大 小 为 32 项 
request[32]。 为 什么 是 32， 而 不 是 16 或 64 呢 ? 





这 是 因为 数据 在 主机 中 交互 的 速度 比 在 人 硬盘 中 
交互 的 速度 快 2 个 数量 级 ， 也 就 是 说 ， 平 均 进 程 与 
缓冲 区 每 交互 100 个 缓冲 块 的 数据 ， 绥 冲 块 与 硬盘 
交互 1 个 缓冲 块 的 数据 。 主 机 中 缓冲 块 的 数量 最 多 
为 3000 多 块 ， 绥 冲 块 与 请 求 项 的 数量 之 比 正 好 是 2 
个 量 级 ， 与 内 存 、 硬 盘 交 互 速 度 之 比 匹 配 。 如 果 请 
求 项 的 数量 过 多 ， 人 硬盘 根本 来 不 及 处 理 ， 请 求 项 就 
会 有 内置， 浪费 了 内 存 ; 如 有 果 数 量 过 少 ， 由 于 没有 足 
够 的 请 求 项 ， 导 致 新 的 读 写 任务 无 法 下 达 ， 便 航空 
内 ， 而 进程 无 合适 的 缓冲 块 可 用 ， 被 频繁 挂 起 ， 导 
致 系统 整体 运行 效率 降低 。 而 32 这 个 数字 ， 分 寸 拿 
捏 得 恰到好处 。 











7.4 _ uptodate 和 dirt 的 作用 


前 面 一 节 介 绍 到 ，b_dev 和 b_blocknr 两 个 字段 
是 进程 能 共享 缓冲 块 的 基础 ， 是 缓冲 块 中 数据 是 否 
仍然 停留 的 标志 。 停 留 ， 就 是 要 被 共享 ， 使 用 会 延 
伸 至 两 个 方向 : 一 个 是 进程 方向 ， 即 进程 能 共享 哪 
些 绥 冲 块 ， 不 能 共享 哪些 ， 一 个 是 硬盘 方向 ， 即 哪 
些 需要 同步 到 硬盘 上 ， 哪 些 不 需要 同步 。 而 这 两 个 
使 用 方向 的 核心 任务 ， 就 是 确保 缓冲 块 和 数据 块 上 
数据 的 正确 性 。 











buffer_ head 中 b_uptodate 和 b_dirt 这 两 个 字段 ， 
都 是 为 了 解决 缓冲 块 和 数据 块 的 数据 正确 性 问题 而 
存在 的 。 





b_uptodate 针 对 进程 方向 ， 它 的 作用 是 ， 告 诉 


内 核 ， 只 要 缓冲 块 的 b_uptodate 字 段 被 设置 为 1， 绥 
冲 块 的 数据 已 经 是 数据 块 中 最 新 的 ， 束 可 以 放心 地 
文 持 进程 共享 缓冲 块 的 数据 。 反 之 ， 如 果 

b_uptodate 为 0， 束 提醒 内 核 缓冲 块 并 没有 用 绑 定 的 
数据 块 中 的 数据 更 新 ， 不 文 持 进程 共 圣 该 绥 冲 块 。 





b_dirt 是 针对 便 盘 方 同 的 。 只 要 缓冲 块 的 b_dirt 
字段 被 设置 为 1， 就 是 告诉 内 核 ， 这 个 缓冲 块 中 的 
内 容 已 经 被 进程 方 辐 的 数据 改 号 了 ， 最 终 裔 要 同步 
到 便 盘 上 。 反 之 ， 如 果 为 0， 束 不 需要 同步 。 








7.4.1 b_uptodate 的 作用 


我 们 先 来 看 进程 方向 上 ， 如 果 没 有 b_uptodate 
字段 的 控制 ， 会 出 现 什么 情况 。 


没有 b_uptodate 字 段 的 控制 ， 绥 冲 芯 与 硬盘 块 


绑 定 后 ， 进 程 直接 操作 绥 冲 块 中 的 数据 ， 可 能 会 出 
现 错误 。 以 读 文 件 为 例 ， 如 图 7-7 所 示 。 


进程 的 本 意 要 读 取 文 件 中 
这 个 数据 块 到 进程 内 存 空间 


申请 一 个 缓冲 块 与 硬盘 数据 块 
She, 但 并 未 用 数据 块 中 的 数据 
uptodate 组 冲 块 


如 果 不 用 硬盘 数据 块 的 数据 
uptodate 缓 冲 块 , 缓冲 块 中 的 


4s 
绥 冲 区 … I … 数据 是 垃圾 数据 , 直接 将 缓冲 块 
i 中 的 垃圾 数据 当 作 硬 盘 数 据 块 的 


图 7-7 没有 b_uptodate 字 段 控 制 情况 下 读 文 件 的 


情 Æ 
AAR 


从 图 7-7 中 不 难 及 现 ， 由 于 缓冲 块 中 的 数据 并 
未 用 数据 块 中 的 数据 更 新 ，b_uptodate 为 0， 此 时 该 


Bat ER ei Ga Hr se AEE REIN BUR A xe 
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再 比如 写 文 件 ， 如 图 7-8 所 示 。 





从 图 7-8 中 不 难 发 现 ， 进 程 原本 要 写 入 文件 的 
数据 量 小 于 一 个 块 ， 由 于 没有 用 数据 块 中 的 数据 更 
新 缓冲 块 ，b_uptodate 为 0， 同 步 数据 时 ， 绥 冲 块 中 
的 垃圾 数据 也 写 入 了 数据 块 ， 而 且 还 禾 兽 了 原来 的 
数据 ， 引 起 数据 错误 ， 这 也 不 是 进程 的 本 童 。 








可 见 ， 如 果 不 用 便 盘 数据 块 中 的 数据 更 新 绥 冲 
块 中 的 数据 ， 后 续 的 读 文件 、 写 文件 对 缓冲 块 的 操 
作 都 不 是 建立 在 便 盘 数据 块 中 的 数据 的 基础 之 上 
的 ， 可 能 导致 数据 错误 。 设 置 b_ uptodate 为 1， 融 标 








志 看 绥 冲 块 中 的 数据 是 基于 便 盘 数据 块 的 ， 内 核 可 
以 放心 地 支持 进程 与 缓冲 块 进行 数据 交互 。 


进程 的 数据 … I ia 
本 意 是 用 进程 数据 改写 


已 有 数据 的 硬盘 数据 块 


= 
B? 
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进程 的 数据 … | | = 
申请 缓冲 块 并 与 数据 块 绑 定 ， 


未 用 数据 块 中 的 数据 更 


新 
onc eh. 就 直接 将 进程 数据 写 入 
缓冲 块 , 可 以 看 出 缓冲 块 中 除了 


进程 数据 之 外 还 有 缓冲 块 中 的 
< ~ es 2 
进程 的 数据 … I - 
EHE = 结果 把 垃圾 数据 也 同步 了 进去 ， 
覆盖 了 数据 块 已 有 的 数据 


p! 


图 7-8 没有 b_uptodate 字 段 控 制 情 况 下 与 文件 的 


情 Æ 
AAR 


为 此 ， 当 使 盘 中 断 服 务 程序 执行 时 ， 在 数据 从 
人 硬盘 读 入 缓冲 块 后 ， 或 从 绥 冲 块 同 步 到 硬盘 后 ， 都 


会 将 b_uptodate 设 置 为 1。 代 人 码 如 下 : 





/代码 路 径 : kernrl/blk_drv/hd.c: 


static void read_intr (void) / 读 盘 中 晰 服务 程序 


CURRENT- > buffer+=512; 
CURRENT-~>sector++; 

if (--CURRENT->nr_sectors) { 
do _hd= &read_intr; 

return; 


} 





end _request (1) ; /处 理 完 一 个 请 求 项 后 处 理 善 后 工作 
do _hd_request () ; 
} 


/代码 路 径 : kernrl/blk_drv/hd.c: 


static void write intr (void) / 写 盘 中 断 服 务 程序 


ee 


if (--CURRENT->nr_sectors) { 

CURRENT- >sector++; 

CURRENT->buffer+=512; 

do _hd= & write_intr; 

port _write (HD_DATA,CURRENT->buffer, 256) ; 
return; 


} 





end _request (1) ; /处 理 完 一 个 请 求 项 后 处 理 善 后 工作 
do _hd_request () ; 

} 

/代码 路 径 : kernrl/blk_drv/blk.h: 

extern inline void end_request (int uptodate ) 

{ 


DEVICE _OFF (CURRENT->dev) ; 


if (CURRENT->bh) { 


CURRENT->bh->b_uptodate=uptodate; /将 b_uptodate 字 段 设 置 为 
1， 表 示 已 经 更 新 ， 数 据 内 容 是 同步 的 


unlock _buffer (CURRENT->bh) : 


ee 


值得 注意 的 是 ，b_uptodate 被 设置 为 1， 是 告诉 
内 核 ， 组 冲 块 中 的 数据 已 经 用 数据 块 中 的 数据 更 新 
过 了 ， 但 并 不 等 于 两 者 的 数据 就 完全 一 致 。 比 如 ， 
为 文件 创建 新 数据 块 ， 就 需要 新 建 一 个 缓冲 块 与 这 
个 新 建 数据 块 确立 绑 定 关 系 。 关 系 确 立 后 ， 先 将 组 
冲 块 清 零 ， 然 后 将 该 缓冲 块 的 b_uptodate 字 段 设 置 
为 1。 当 然 ， 此 时 并 没有 实质 地 同步 数据 ， 绥 冲 块 
和 硬盘 块 的 数据 内 容 并 不 一 致 ， 但 这 并 不 影响 数据 





的 正确 同步 。 


通过 第 5 章 的 介绍 我 们 得 知 ， 新 建 的 数据 块 只 
可 能 有 两 个 用 途 ， 要 么 用 来 存储 文件 的 内 容 ， 要 么 
用 来 存储 文件 的 i_zone 的 间接 块 管理 信息 。 


如 果 是 存储 文件 内 容 ， 由 于 新 建 数据 块 和 新 建 
使 盘 数据 块 ， 此 时 都 是 垃圾 数据 ， 都 不 是 进程 需要 
的 ， 无 所 谓 数据 是 侣 更 新 ， 结 果 “ 等 效 于 ”更 新 问题 
己 经 解决 ， 所 以 将 该 缓冲 其 的 b_uptodate 字 段 设置 
为 1《〈 仔 细 想 想 ， 这 时 缓冲 块 不 清 零 ， 也 没有 问 


ft) 。 





如 果 是 存储 文件 的 间接 块 管理 信息 ， 必 须 清 
E, RRRA RIPAR, BURA 
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理 ，b_uptodate 字 段 设 置 为 1 仍然 没 问 题 。 





设计 者 综合 考虑 ， 采 取 的 策略 是 ， 只 要 为 新 建 
的 数据 块 新 申请 了 缓冲 块 ， 不 管 这 个 缓冲 块 将 来 用 
作 什 么 ， 反 正 进程 现在 不 需要 里 面 的 数据 ， 干 脆 全 
都 清 零 。 这 样 不 管 与 之 绑 定 的 数据 块 用 来 存储 什么 
信息 ， 都 无 所 谓 ， 将 该 缓冲 块 的 b_uptodate 字 段 设 
置 为 1， 更 新 问题 “等 效 于 ”已 解决 。 











代码 如 下 : 


/代码 路 径 : fs/inode.c: 


int create_block (struct m_inode * inode,int block) /创建 一 个 新 数据 
块 


{ 


return _bmap (inode,block, 1) ; 


} 


static int_bmap (struct m_inode * inode, int block,int create ) 


if (block<7) { 

if (create& & ! inode->i_zone[block] ) 

if (inode->i_zone[block]=new_block (inode->i_dev) ) { 
inode- >i_ctime=CURRENT_TIME; 


inode- > i_dirt=1; 


return inode- >i_zone[block]; 


ee 


/代码 路 径 : fs/Bitmap.c: 


int new_block Cint dev) /在 设备 dev 申 请 一 个 数据 块 


ee 


if (bh->b_count! =1) 

panic ("new block: countis! =1") ; 

clear _block (bh->b_data) ; 
bh->b_uptodate=1; /将 该 缓冲 块 设 置 为 已 更 新 
bh->b_dirt=1; 

brelse (bh) ; 

return j; 


} 


b_uptodate 被 设置 为 1 后 ， 针 对 该 缓冲 块 无 非 会 
发 生 读 写 两 方面 情况 ， 下 面 我 们 看 看 会 怎么 样 。 





先 看 读 的 情况 ， 绥 冲 块 是 新 建 的 ， 虽 然 里 面 是 
垃圾 数据 ， 考 虑 到 是 新 建文 件 ， 这 时 候 不 存在 读 没 
有 内 容 的 文件 数据 块 的 逻辑 需求 ， 内 核 代 人 码 不 会 做 
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再 看 写 的 情况 ， 由 于 是 新 建 缓冲 块 被 清 零 、 新 
建 的 便 盘 数据 块 部 是 垃圾 数据 ， 此 时 缓冲 块 和 数据 
块 里 面 的 数据 都 不 是 进程 需要 的 ， 无 所 谓 是 仍 更 
Bt. weit. FCAT ee, A Ae a E 
经 更 新 。 所 以 ， 执 行 写 操作 不 会 违背 进程 的 本 意 。 


我 们 来 看 图 7-9。 


此 数据 块 中 写 数 据 


Jl l 进程 的 本 意 是 要 往 





wre siete 


图 7-9 在 b_uptodate 字 段 控 制 情 况 下 读 文 件 的 情 


Æ 
ATS 


以 上 就 是 内 核 中 b_uptodate 被 设置 为 1 的 情景 。 
图 7-9 表 现 了 人 硬盘 数据 块 用 来 存储 文件 内 容 的 情 





景 。 白 色 部 分 代表 消 等 了， 不 论 存 储 的 是 文件 的 数 
据 块 数据 还 是 间接 块 信息 ， 部 没有 问题 。 


反之 ， 如 果 绥 冲 区 中 数据 没有 更 新 ， 
b_uptodate 为 0， 即 更 新 问题 没有 解决 ， 内 核 会 阻拦 
进程 ， 不 让 其 共享 缓冲 块 中 的 数据 ， 无 论 读 写 ， 都 
不 可 以 。 其 目的 是 为 了 避免 前 面 讲述 的 没有 更 新 带 
来 的 数据 混乱 。 比 如 在 读 取 块 设备 数据 的 时 候 ， 判 
ir SPAR, TSU F: 








/代码 路 径 : fs/Buffer.c: 

struct buffer_head * bread (int dev,int block ) 
{ 

struct buffer_head * bh; 

if (! (bh=getblk (dev,block) ) ) 


panic ("bread: getblk returned NULL\n") ; 





aS (bh- >b_uptodate) // 申 请 到 绥 冲 块 后 ， 先 看 是 否 己 更 新 ， 以 此 决 
返回 使 用 该 绥 冲 块 


return bh; 
ll_rw_block (READ,bh) ; 
wait _on_buffer (bh) : 


if (bh->b_uptodate) /从 硬盘 读 进 内 容 后 ， 再 次 检查 是 否 已 更 新 ， 
以 此 决定 是 否 返 回 使 用 该 缓冲 块 


return bh; 
brelse (bh) ; 
return NULL; 


} 


此 代码 中 ，getblk 函 数 很 有 可 能 在 绥 冲 区 中 找 
到 一 个 已 经 建立 了 绑 定 关系 〈b_dev 和 b_blocknr 都 
匹配 ) ， 而 且 正 好 可 以 被 当前 进程 使 用 的 缓冲 块 ， 
但 就 是 由 于 b_uptodate 为 0， 这 个 缓冲 块 也 不 能 使 
用 ， 只 好 再 释放 掉 。 








再 比如 ， 为 与 文件 中 已 有 的 数据 块 交 互 而 新 申 
请 的 一 个 缓冲 块 ， 就 把 b_uptodate 标 志 设 置 为 0， 表 
示 此 缓冲 块 数据 现在 还 没有 被 更 新 ， 不 能 被 进程 共 
享 ， 代 码 如 下 : 








/代码 路 径 : fs/Buffer.c: 


struct buffer head * getblk (int dev,int block ) 


if (find_buffer (dev,block) ) 

goto repeat; 

bh- >b_count=1; 

bh->b_dirt=0; 

bh->b_uptodate=0; /数据 还 没有 被 更 新 ， 还 不 能 被 进程 共有 于 
remove _from_queues (bh) ; 


bh- >b_dev=dev; 


bh->b_blocknr=block; 
insert _into_queues (bh) ; 
return bh; 


} 


7.1 市 中 介绍 过 这 部 分 代码 ， 一 个 新 的 缓冲 块 
就 是 在 这 里 诞生 的 ， 刚 诞生 的 一 刻 ， 数 据 肯定 和 便 
盘 数 据 芯 是 不 一 致 的 ， 所 以 要 把 b_uptodate 设 置 为 
0， 确 保 个 被 进程 误 用 。 








7.4.2 b _dirt 的 作用 


b_uptodate 标 志 设 置 为 1 后 ， 内 核 就 可 以 支持 进 
程 共享 该 缓冲 块 的 数据 了 ， 读 写 都 可 以 。 读 操作 不 
会 改变 缓冲 块 中 数据 的 内 容 ， 所 以 不 影响 数据 ， 而 
执行 了 写 操作 后 ， 就 改变 了 缓冲 块 数 据 内 容 ， 就 要 
将 b_dirt 标 志 设 置 为 1。 比 如 ， 往 块 设备 文件 写 入 数 
据 ， 往 普通 文件 写 入 数据 ， 等 等 。 具 体 代码 如 下 : 





/代码 路 径 : fs/blk_dev.c: 


int block_write Cint dev,long * pos,char * buf,int count) / 块 设 备 文 件 
内 容 写 入 绥 冲 块 


offset=0; 


*post+=chars; 


written+=chars ; 

count-=chars; 

while (chars-->0) 

* (p++) =get fs byte (buf++) ; 
bh->b_dirt=1; 


brelse (bh) ; 


/代码 路 径 : fs/file_dev.c: 


int file_write (struct m_inode * inode,struct file * filp,char * buf,int 


count) /普通 文件 内 容 写 入 缓冲 块 


c=pos%*BLOCK_SIZE; 
p=c+bh- > b_data; 
bh->b_dirt=1; 


c=BLOCK_SIZE-c; 


if (c>count-i) c=count-i; 
post=c; 

if (pos>inode->i_size) { 
inode- > i_size=pos; 


inode- > i_dirt=1; 


i+=c; 
while (c-->0) 


* (p++) =get_fs_byte (buf++) ; 


ee 


/代码 路 径 : fs/file_dev.c: 
static struct buffer_head * add_entry (struct m_inode * dir, 


const char * name,int namelen,struct dir_entry ** res_dir) /目录 文件 


需要 加 载 目 录 项 ， 用 到 写 缓冲 块 
{ 


if (i* sizeof (struct dir_entry) >=dir->i_size) { 


de- > inode=0; 
dir->i_size= (i+1) *sizeof (struct dir entry) ; 
dir- >i_dirt=1; 


dir- >i_ctime=CURRENT_TIME; 


if (! de->inode) { 

dir- >i_mtime=CURRENT_TIME; 

for (i=0; i< NAME LEN; i++) 

de->name[i]J= (i<namelen) ?get fs byte (nameti) : 0; 
bh->b_dirt=1; 

*res_dir=de; 


return bh; 
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要 因此 重新 设置 为 0%， 而 禁止 内 核 继续 支持 进程 共 
诗 该 缓冲 块 呢 ? 我 们 来 看 图 7-10。 





PHIX ‘ 
数据 已 经 更 新 ， 
b_uptodate 置 1 
硬盘 
缓冲 块 数据 部 分 被 更 改 ， 
b_dirt 置 1。 由 于 上 前 绥 
缓冲 区 


, 后 ay, 
图 7-10 往 绥 冲 块 中 写 入 数据 的 情景 


从 图 7-10 中 不 难 发 现 ， 由 于 这 个 缓冲 块 中 的 数 
据 此 前 已 经 用 硬盘 数据 块 中 的 数据 更 新 过 ， 所 以 ， 
往 缓 冲 块 中 写 入 新 数据 后 ， 绥 冲 块 中 没有 写 入 新 数 
据 的 部 分 仍 与 硬盘 数据 块 对 应 的 数据 部 分 相同 ， 将 


来 往 数 据 块 上 同步 的 时 候 ， 所 有 的 数据 都 是 进程 希 
望 同 步 到 便 盘 数据 块 上 的 ， 不 会 把 垃圾 数据 同步 到 
数据 块 中 。 所 以 b_uptodate 仍 然 是 1， 不 需要 改变 ， 
这 个 缓冲 块 中 的 数据 仍然 可 以 被 进程 共享 ， 继 续 读 
写 都 没有 问题 。 我 们 来 看 继续 写 入 数据 的 情景 ( 见 
图 7-11) 。 





以 此 类 推 , 不 断 地 往 缓冲 块 写 入 数据 ， 绥 冲 区 
中 的 数据 目 然而 然 地 不 断 变 化 ， 将 来 同步 的 时 候 ， 
这 些 新 数据 目 然 会 像 进程 希望 的 那样 同步 到 硬盘 数 
据 块 中 。 





进程 改写 数据 


和 


和 放生 


同步 的 结果 
是 进程 希望 的 


图 7-11 继续 往 缓冲 块 中 写 入 数据 的 情景 


buffer_head 中 在 进程 方 回 和 硬盘 方 同 分 别 设置 
了 两 个 字段 (b_uptodate 和 b_dirt) ， 请 求 项 结构 中 
也 有 这 两 个 方向 上 的 考虑 。 相 比 写 操作 而 言 ， 读 操 
作对 用 户 进程 更 紧迫 ， 所 以 请 求 项 为 这 两 种 操作 设 





定 了 大 小 不 同 的 空间 ， 人 代码 如 下 : 





/代码 路 径 : kernel/blk_drv/ll_rw_blk.c: 


static void make_request (int major,int rw,struct buffer_head * bh) 


ee 


lock buffer (bh) ; 


if ( (rw==WRITE& & ! bh->b_dirt) || (rw==READ & & bh-> 
b_uptodate) ) { 


unlock _buffer (bh) ; 


return; 


repeat: 

if (rw==READ) 
req=requesttNR_REQUEST; 
else 


req=requestt ( (NR_REQUEST*2) /3) ; 


while (--req>=request ) 
if (req->dev<0) 


break; 


从 以 上 代码 不 难 友 现 ，request[32] 中 只 有 2/3 的 
空间 可 以 用 来 写 操作 ， 而 全 部 的 空间 都 可 以 用 来 读 
操作 ， 在 同等 的 条 件 下 ， 读 操作 执行 的 机 会 更 多 。 


另外 ， 仔 细 考 察 b uptodate、b_dirt 可 以 发 现 ， 
只 要 b_uptodate 被 设置 为 1， 进 程 就 可 以 共享 里 面 的 
数据 。 而 且 在 缓冲 区 中 没有 进程 可 以 直接 共享 的 组 
冲 块 的 情况 下 ， 只 要 b_count 为 0， 就 可 以 挪 作 他 
用 ， 让 该 缓冲 块 与 其 他 数据 块 绑 定 ， 另 行使 用 ， 不 
用 担心 数据 会 发 生 错误 。 但 如 果 b_dirt 被 设置 为 1， 








情况 就 不 一 样 了 ， 这 个 缓冲 块 的 数据 已 经 和 数据 块 
上 的 不 一 致 了 ， 需 要 同步 ， 虽 然 用 不 着 立即 就 同 
步 ， 但 在 同步 之 前 不 能 挪 作 他 用 ， 否 则 就 会 覆盖 掉 
这 些 数据 ， 硬 盘 数 据 块 中 的 数据 没有 体现 进程 改写 
的 内 容 ， 出 现 数据 混乱 。 这 时 如 果 出 现 缓冲 块 不 够 
进程 用 的 情况 ， 那 就 只 好 让 进程 等 待 ， 等 同步 完成 
后 ， 内 核 就 会 立刻 将 b_dirt 设 置 为 0， 腾 出 更 多 缓冲 
块 供 进 程 使 用 。 代 码 如 下 : 














/代码 路 径 : kernel/blk_drv/ll_rw_blk.c: 


static void add_request (struct blk_dev_struct * dev,struct request * 
req) 


{ 
struct request * tmp; 
req- >next=NULL; 


cli ©) ; 


if (req->bh) 
req- > bh->b_dirt=0; 
if (! (tmp=dev->current_request) ) { 
dev- > current_request=req; 
sti O ; 
(dev->request_fn) © ; 


return; 


7.4.3 iuptodate、i_dirt 和 s_dirt 的 作用 





以 上 介绍 了 控制 文件 内 容 正 确 性 的 方面 ， 内 容 
通过 b_uptodate 和 b_dirt 这 两 个 字段 ， 保 证 绥 冲 区 数 
据 与 硬盘 数据 块 数 据 的 正确 性 。 文 件 管理 信息 也 有 
类 似 的 字段 ， 比 如 inode_table[32] 中 存储 的 i 节点 ， 
在 多 进程 操作 同一 文件 时 ， 就 要 共享 文件 i 节点 信 

。 为 此 它 的 数据 结构 中 也 设计 了 两 个 字段 : 
i_uptodate (Linux 0.11 中 没有 实际 使 用 ) 和 i_dirt。 
代码 如 下 : 








/代码 路 径 : include/linux/fs.h: 
struct m_inode{ 
unsigned short i_mode; 


unsigned short i_uid; 


unsigned long i_size; 
unsigned long i_mtime; 
unsigned char i_gid; 
unsigned char i_nlinks; 
unsigned short i_zone[9]; 
/*these are in memory also*/ 
struct task_struct * i_wait; 
unsigned long i_atime; 
unsigned long i_ctime; 
unsigned short i_dev; 
unsigned short i_num; 
unsigned short i_count; 
unsigned char i_lock; 
unsigned char i_dirt; 
unsigned char i_pipe; 
unsigned char i_mount; 


unsigned char i_seek; 


unsigned char i_update; 


}; 


设计 i_dirt 字 有 段 不 难 理解 ， 比 如 改变 文件 大 小 
后 ， 文 件 市 点 中 就 要 改变 对 大 小 的 记录 ， 这 样 
inode_table[32] 中 的 i 节点 和 硬盘 上 的 内 容 就 不 一 样 
了 ， 需 要 同步 。i 节 点 中 i_uptodate 标 志 并 没有 在 系 
统 中 用 到 过 。 这 是 因为 ， 这 些 文件 管理 信息 在 硬盘 
上 都 是 以 数据 块 的 形式 存储 的 ， 它 们 也 都 是 以 块 的 
形式 载 入 缓冲 区 的 ， 载 入 缓冲 区 后 与 硬盘 数据 块 内 
容 一 样 ， 等 价 于 已 经 更 新 ， 直 接 可 以 用 来 共享 ， 
需要 在 管理 结构 中 再 搞 一 套 i_uptodate 标 志 了 。 




















super_block[8] 中 存储 的 超级 块 ， 也 存在 被 进程 
共 圣 的 问题 。 超 级 块 中 保存 者 整个 文件 系统 的 官 理 
信息 ， 多 进程 操作 文件 时 ， 免 不 了 都 会 用 到 。 它 的 











数据 结构 中 也 有 一 个 字段 ，s_dirt， 代 码 如 下 : 





/代码 路 径 : include/linux/fs.h: 
struct super_block{ 

unsigned short s_ninodes; 
unsigned short s_nzones; 
unsigned short s_imap_blocks; 
unsigned short s_zmap_blocks; 
unsigned short s_firstdatazone; 
unsigned short s_log_zone_size; 
unsigned long s_max_size; 
unsigned short s_magic; 
/*These are only in memory*/ 
struct buffer_head * s_imap[8]; 
struct buffer_head * s_zmap[8]; 


unsigned short s_dev; 


struct m_inode * s_isup; 
struct m_inode * s_imount; 
unsigned long s_time; 
struct task_struct * s_wait; 
unsigned char s_lock; 
unsigned char s_rd_only; 
unsigned char s_dirt; 


E 


结构 中 没有 类 似 uptodate 这 样 的 字段 ， 理 由 和 i 
市 点 结构 中 i_uptodate 没 有 被 用 到 是 一 样 的 。 它 们 也 
都 是 以 块 的 形式 载 入 缓冲 区 的 ， 载 入 缓冲 区 后 与 便 
盘 数 据 块 内 容 一 样 ， 等 价 于 已 经 更 新 ， 不 需要 在 管 
理 结 构 中 再 搞 一 套 uptodate 标 志 了 。 而 s_dirt 字 段 ， 
除了 在 读 超级 其 时 和 被 设置 为 0 后 ， 再 没有 被 使 用 
过 。 这 是 因为 ， 在 Linux 0.11 中 ， 进 程 共享 超级 块 











音 妃 ， 全 部 从 super_block[8] 中 读 取 信息 ， 并 没有 往 
表 项 中 写 入 数据 ， 所 以 没有 s_dirt 字 段 。 


7.5 count, lock, wait. requestH 1E H 





AES ESP Rn, EREN KE H e el 
继续 延伸 ， 束 是 本 节 要 介绍 的 b_count、b_lock 和 


*b wait. 


7.5.1 _b_count 的 作用 


进程 癌 内 核 提 出 申请 的 时 候 ， 内 核 只 能 在 下 面 
两 种 情况 中 做 出 选择 : 让 进程 和 其 他 进程 共享 某 个 
缓冲 芯 ， 访 缓冲 其 的 所 有 控制 字段 的 数值 也 一 并 先 
继承 下 来 ; 为 进程 申请 一 个 没 被 任何 进程 占用 的 组 
冲 块 ， 所 有 的 控制 字段 重新 设置 。 








要 做 选择 ， 进 程 下 要 知道 哪些 缓冲 块 已 经 被 其 
他 进程 占用 了 ， 哪 些 没有 被 占用 。 有 些 缓冲 块 可 能 





AS ERK ADERE, A m ERIR A 
个 字段 ， 使 内 核能 够 随时 知道 “每 个 缓冲 块 有 多 少 


进程 在 共享 "， 这 个 字段 就 是 b_count。 





绥 冲 区 在 初始 化 的 时 候 ， 没 有 进程 引用 缓冲 
块 ， 所 以 每 个 缓冲 块 的 b_count 被 设置 为 0。 代 码 如 
IRs 


/代码 路 径 : fs/buffer.c: 


void buffer_init (long buffer_end ) 


h->b_dev=0; 
h->b_dirt=0; 
h->b_count=0; /没有 进程 引用 缓冲 块 ， 引 用 计数 为 0 


h->b_lock=0; 


h- >b_uptodate=0; 
h->b_wait=NULL; 
h->b_next=NULL; 
h->b_prev=NULL; 
h->b_data= (char *) b; 
h->b_prev_free=h-1; 


h->b_next_free=h+1; 





新 申请 一 个 缓冲 块 时 ， 这 个 缓冲 块 必须 没有 被 
任何 进程 占用 ，b_count 值 设置 为 0， 申 请 到 后 ， 绥 
冲 块 被 第 一 个 进程 共享 ，b_count 被 设置 为 1。 代 码 
如 下 : 





/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block) 


tmp=free_list; 

do{ 

if (tmp->b_count) /引用 计数 必须 为 0 
continue; 


if (C! bh|IBADNESS (tmp) <BADNESS (bh) ) {// 才 能 考虑 重新 
申请 


bh=tmp; 

if (! BADNESS (tmp) ) 

break; 

} 

/*and repeat until we find something good*/ 

while ( (tmp=tmp->b_next_free) ! =free_list) ; 


ee 





bh->b_count=1; // 新 缓冲 块 ， 意 味 着 只 有 当前 进程 在 引用 它 ， 所 以 
b_count 被 设置 为 1 





bh->b_dirt=0; 
bh->b_uptodate=0; 

remove _from_queues (bh) ; 
bh->b_dev=dev; 
bh->b_blocknr=block; 

insert _into_queues (bh) ; 
return bh; 


} 





绥 冲 块 陆续 被 更 多 的 进程 共享 ，b_count 的 数值 
在 原来 的 基础 上 逐渐 累加。 代码 如 下 : 








/代码 路 径 : fs/buffer.c: 

struct buffer head * getblk (int dev,int block) 
{ 

struct buffer_head * tmp, *bh; 


repeat: 


if (bh=get_hash_table (dev,block) ) /遍历 哈 希 表 ， 看 能 不 能 和 其 
他 进程 共享 缓冲 块 


return bh; 


struct buffer_head * get_hash_table (int dev, int block ) 
{ 

struct buffer_head * bh; 

for (; ) { 

if C! (bh=find buffer (dev,block) ) ) 

return NULL; 


bh->b_count++; /如 果 发 现 可 以 共享 ， 则 该 缓冲 块 又 多 了 一 个 进 
程 引用 它 ，b_count 递 增 


wait on buffer (bh) : 
if (bh->b_dev==dev & & bh->b_blocknr==block ) 
return bh; 


bh->b_count--; 


I EERE ES PSE HRA, ANF i BSE 
块 ， 内 核 会 解除 该 进程 和 缓冲 块 的 关系 ，b_count 数 
值 随 之 减 1。 如 果 所 有 进程 和 该 缓冲 块 的 天 系 部 解 
除了 ， 则 b_count 的 值 束 被 递减 为 0%， 这 个 缓冲 块 束 
又 可 以 被 当做 新 缓冲 块 来 申请 了 了。 代码 如 下 : 


/代码 路 径 : fs/file_dev.c: 


int file_read (struct m_inode * inode,struct file * filp,char * buf,int 
count) /该 文件 


while (chars-->0) 
put _fs_ byte (* (p++) , buf++) ; 
brelse (bh) ; /递减 引用 计数 


selse{ 


while (chars-->0) 


put _fs byte (0, buf++) ; 


ee 


int file_write (struct m_inode * inode,struct file * filp,char * buf,int 


count) // + 


ee 


while (c-->0) 
* (p++) =get fs byte (buf++) ; 


brelse (bh) ; /递减 引用 计数 


inode- > i_mtime=CURRENT_TIME; 
if (! (Cfilp->f_flags&O_APPEND) ) { 
filp- > f_pos=pos; 


inode- >i_ctime=CURRENT_TIME; 


/代码 路 径 : fs/buffer.c: 

void brelse (struct buffer head * buf) 
{ 

if C! buf) 

return; 

wait _on_buffer (buf) ; 

if (! (Cbuf->b_count--) ) 

panic ("Trying to free free buffer") ; 
wake up (&buffer_wait) ; 


} 











值得 注意 的 是 ， 在 所 有 共享 缓冲 块 的 进程 全 部 





脱离 共享 关系 后 ， 虽 然 b _ count 肯定 为 0， 但 这 并 不 


持 于 绥 冲 块 与 数据 块 解除 了 绑 定 关系 。 如 来 将 来 和泉 








个 进程 再 操作 这 个 缓冲 块 ， 只 要 这 个 缓冲 块 的 
b_dev. b_blocknr#<A Ue, BAN EEA ARE P E 
新 读 取 ， 完 全 可 以 直接 沿用 这 个 缓冲 块 。 


7.5.2 i count 的 作用 





进程 与 缓冲 块 之 间 共 享 的 是 文件 的 内 容 数据 ， 
不 仅 管理 文件 的 内 容 数据 时 需要 b_count 字 段 ， 而 且 
文件 的 管理 信息 中 ， 凡 是 需要 “搜索 空闲 项 ”*、“ 搜 
索 到 空闲 项 后 可 以 另 作 他 用 ”的 数据 结构 ， 都 需要 
与 之 类 似 的 字段 。 比 如 inode_table[32] 中 ， 就 有 类 
似 字段 。 代 码 如 下 : 


/代码 路 径 : include/linux/fs.h: 
struct m_inode{ 

unsigned short i_mode; 
unsigned short i_uid; 

unsigned long i_size; 


unsigned long i_mtime; 


unsigned char i_gid; 
unsigned char i_nlinks; 
unsigned short i_zone[9]; 
/*these are in memory also*/ 
struct task_struct * i_wait; 
unsigned long i_atime; 
unsigned long i_ctime; 
unsigned short i_dev; 
unsigned short i_num; 
unsigned short i_count; 
unsigned char i_lock; 
unsigned char i_dirt; 
unsigned char i_pipe; 
unsigned char i_mount; 
unsigned char i_seek; 
unsigned char i_update; 


}; 


inode_table[32] 是 文件 管理 信息 ， 进 程 引 用 了 
文件 数据 块 所 对 应 的 缓冲 块 ， 也 就 必然 相应 地 引用 
了 inode_table[32] 中 的 i 节点 项 ， 此 两 者 是 同步 的 。 
所 以 inode_table[32] 中 也 需要 i_count 这 一 字段 来 标 
识 该 i 节 点 项 被 多 少 进程 共享 了 。 如 果 没 被 共享 ， 则 
ji_count 就 是 0， 就 可 以 被 当做 空闲 项 。 比 如 进程 要 
打开 一 个 从 未 打开 的 文件 ， 无 法 与 其 他 进程 共享 i 节 
点 项 时 ， 就 可 以 用 这 个 空闲 节点 项 来 装载 i 节点 。 














而 super_block[8] 则 与 此 不 同 ， 一 个 设备 就 一 个 
超级 块 项 目 ， 整 个 系统 就 只 能 安装 8 个 超级 块 ， 这 
都 是 有 数 的 。 一 个 超级 块 项 从 加 载 到 文件 系统 镍 
载 ， 只 代表 某 个 设备 的 超级 块 ， 所 以 不 存在 是 否 空 
闲 、 是 否 打算 着 另 作 他 用 的 情况 。 多 个 进程 可 以 加 
载 相同 的 文件 系统 ， 需 要 操作 相同 的 超级 块 ， 但 就 
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数 。 代 码 如 下 : 





/代码 路 径 : include/linux/fs.h: 
struct super_block{ 

unsigned short s_ninodes; 
unsigned short s_nzones; 
unsigned short s_imap_blocks; 
unsigned short s_zmap_blocks; 
unsigned short s_firstdatazone; 
unsigned short s_log_zone_size; 
unsigned long s_max_size; 
unsigned short s_magic; 
/*These are only in memory*/ 
struct buffer_head * s_imap[8]; 


struct buffer_head * s_zmap[8]; 


unsigned short s_dev; 
struct m_inode * s_isup; 
struct m_inode * s_imount; 
unsigned long s_time; 
struct task_struct * s_wait; 
unsigned char s_lock; 
unsigned char s_rd_only; 
unsigned char s_dirt; 


}; 





从 以 上 代码 中 可 以 看 出 ， 没 有 类 似 count 的 字 








段 。 
(ERE, BROS ARERR, CPP 
常理 信息 还 包括 i 节 点 位 图 和 逻辑 块 位 图 。 这 两 类 文 


件 壳 理 信 息 并 没有 专用 的 数据 结构 ， 但 它们 也 要 文 





FRE. ENTER, WHEE. HE 
BAIR AAT AA. eee AEA. AREA 
P: 





/代码 路 径 : fs/super.c: 


static struct super_block * read_super (int dev) 


for G=0; i<s->s_imap_blocks; i++) / 往 绥 冲 块 中 载 入 i 节 点 位 图 
if (s->s_imap[i]=bread (dev,block) ) 

block++; 

else 

break; 


for (i=0; i<s->s_zmap_blocks; i++) / 往 绥 冲 块 中 载 入 逻辑 块 位 


if (s->s_zmap[i]=bread (dev,block) ) 


block++; 


else 
break; 


if (block! =2+s->s_imap_blocks+s->s_zmap_blocks) {//4 R H4 Ht 
异常 情况 ， 再 释放 


for (i=0; i<I MAP_ SLOTS; i++) 
brelse (s->s_imap[i]) ; 

for (i=0; i<Z_MAP_ SLOTS; i++) 
brelse (s->s_zmap[i]) ; 

s- >s_dev=0; 

free _super (s) ; 


return NULL; 


s- >s_imap[0]->b_data[0]|=1; 
s- >s_zmap[0]- >b_data[0]|=1; 
free _super (s) ; 


return sS; 


/代码 路 径 : fs/buffer.c: 


struct buffer head * bread (int dev,int block) // 读 取 底 层 块 设备 数据 


struct buffer_head * bh; 


if C! (bh=getblk (dev,block) ) ) /申请 缓冲 块 时 要 用 到 设备 号 和 
块 号 


panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate ) 
return bh; 


ee 


if (find_buffer (dev,block) ) 
goto repeat; 


bh->b_count=1; /引用 计数 为 1 


bh->b_dirt=0; 


bh- >b_uptodate=0; 


ee 


从 以 上 代码 中 可 以 看 出 ，i 市 点 位 图 、 超 级 块 
位 图 载 入 缓冲 块 后 ， 这 些 缓冲 块 的 b_count 补 设置 为 
1， 之 后 并 没有 将 其 释放 过 ， 这 样 这 些 缓冲 块 的 引 
用 计数 就 无 法 还 原 为 0 了 。 所 以 任何 进程 申请 新 绥 
冲 块 的 时 候 ， 都 无 法 申请 到 它们 ， 所 以 这 些 缓冲 块 
成 为 专用 。 





7.5.3 block, *b wait 的 作用 


内 核 为 进程 申请 到 缓冲 块 ， 尤 其 是 申请 到 
b_count 为 0 的 缓冲 块 时 ， 因 为 同步 的 原因 ， 有 可 能 
这 个 缓冲 块 正在 与 硬盘 交互 数据 ， 为 此 buffer_ head 
结构 中 设置 了 b_lock 字 段 。 如 果 此 字段 被 设置 为 1， 
就 说 明正 在 和 硬盘 交互 数据 ， 内 核 就 会 拦截 进程 对 
该 缓冲 块 的 操作 ， 等 到 与 硬盘 的 交互 结束 时 ， 再 把 
该 字段 设置 为 0， 以 此 解除 对 进程 方面 的 拦截 。 








如 条 为 进程 申请 到 的 缓冲 其 中 b_lock 字 段 被 设 
兽 为 1， 即 便 已 经 申请 到 了 ， 访 进程 也 需要 挂 起 ， 
直到 该 缓冲 块 被 解锁 后 ， 才 能 访问 。 在 缓冲 块 被 加 
锁 的 过 程 中 ， 而 且 无 论 有 多 少 进 程 申 请 到 了 这 个 绥 
冲 块 ， 都 不 能 立即 操作 该 缓冲 块 ， 都 要 挂 起 ， 并 切 





换 到 其 他 进程 去 执行 。 这 就 需要 记录 有 哪些 进程 因 
为 等 待 这 个 缓冲 块 的 解锁 而 被 挂 起 了 。 由 于 使 用 了 
进程 等 每 队列 ， 所 以 一 个 字段 束 可 以 解决 这 个 记录 


问题 。 这 个 字段 束 是 *b_wait。 





这 两 个 字段 往往 是 联合 使 用 的 ， 我 们 来 看 如 下 
ARES 


速 以 前 ， 初 始 化 缓冲 块 的 时 候 ，b_lock 全 
部 被 设置 为 0，*b_wait 被 设置 为 NULL。 


1/ 代码 路 径 : fs/buffer.c: 


void buffer_init (long buffer_end ) 


ee 


h->b_dev=0; 


h->b_dirt=0; 


h->b_count=0; 
h->b_lock=0; 

h- >b_uptodate=0; 
h->b_wait=NULL; 
h->b_next=NULL; 
h->b_prev=NULL; 
h->b_data= (char *) b; 
h->b_prev_free=h-1; 


h->b_next_free=h+1; 








缓冲 块 被 申请 后 ， 开 始 底层 块 操作 前 ， 就 要 先 
把 该 块 加 锁 ， 即 把 b_lock 设 置 为 1， 然 后 进行 底层 操 
作 。 执 行 代码 如 下 : 





/代码 路 径 : kernel/blk_drv/IlL_rw_block.c: 


static void make_request (int major,int rw,struct buffer_head * bh) 


ee 


if (rw! =READ& &rw! =WRITE) 
panic ("Bad block dev command,must be R/W/RA/WA") ; 
lock buffer (bh) ; /给 缓冲 块 加 锁 


if ( (rw==WRITE& & ! bh->b_dirt) || (rw==READ & &bh-> 
b_uptodate) ) { 


unlock _buffer (bh) ; 


return; 


static inline void lock_buffer (struct buffer_head * bh) 


di O) ; 


while (bh->b_lock) /如 果 绥 冲 块 已 经 加 锁 


sleep _on (&bh->b_wait) ; // 直 接 将 进程 挂 起 
bh->b_lock=1; // 给 缓冲 块 加 锁 
sti(); 


} 


缓冲 块 与 硬盘 数据 块 开 始 交 互 数据 时 ， 
lock_buffer () 函数 先 判 断 缓冲 块 是 否 加 锁 。 如 果 
加 锁 了 《很 有 可 能 该 缓冲 块 早 就 被 别 的 进程 申请 
了 ， 现 在 正 与 硬盘 交互 数据 ) ， 就 直接 调用 
sleep_on () 函数 将 进程 挂 起 ， 并 切换 到 其 他 进程 
去 执行 。 等 到 将 来 切换 回 当前 进程 后 ， 再 将 缓冲 块 
继续 加 锁 。 如 果 没 加 锁 ， 就 将 其 加 锁 ， 以 防 其 他 进 
程 误 操作 。b_lock 和 *b_wait 的 联 用 不 仅 体 现在 这 
里 ， 其 他 只 要 需要 判断 缓冲 块 的 使 用 状态 的 ， 都 需 
要 两 者 的 联 用 。 代 人 码 如 下 : 


/代码 路 径 : fs/buffer.c: 


struct buffer_head * bread (int dev,int block ) 


struct buffer_head * bh; 

if C! (bh=getblk Cdev,block) ) ) 

panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate ) 

return bh; 


ll _rw_block (READ,bh) ; 








wait __on_buffer (bh) ; /检测 进程 是 否 需要 等 竺 缓冲 块 解锁 
if (bh->b_uptodate ) 

return bh; 

brelse (bh) ; 

return NULL; 

} 


static inline void lock_buffer (struct buffer _head * bh) 


cli ©) ; 

while (bh->b_lock) /如 果 组 冲 块 已 经 加 锁 
sleep_on ( &bh->b_wait) ; /直接 将 进程 挂 起 
bh->b_lock=1; /给 缓冲 块 加 锁 

sti O) ; 


} 





给 缓冲 块 加 锁 并 将 进程 挂 起 时 ， 两 者 联 用 ; 相 
反 ， 给 缓冲 块 解锁 并 将 进程 唤醒 时 ， 两 者 也 是 联 
用 。 代 人 码 如 下 : 





/代码 路 径 : kernel/blk_drv/ll_rw_block.c: 


static void make_request (int major,int rw,struct buffer_head * bh) 


lock _buffer (bh) ; 


if ( (rw==WRITE& & ! bh->b dirt) || (rw==READ & & bh-> 


b_uptodate) ) { 
unlock _buffer (bh) ; /给 缓冲 块 解 锁 并 唤醒 进程 
return; 
} 
if (rw==READ) 


req=request+NR_REQUEST; 


static inline void unlock _buffer (struct buffer_head * bh) /给 缓冲 块 
解锁 并 唤醒 进程 


{ 

if C! bh->b_lock) 

printk ("ll_rw_block.c: buffer not locked\n\r") ; 
bh- >b_lock=0; 

wake _up (&bh->b_wait) ; 


} 





读 盘 或 写 盘 结束 后 ， 中 断 服 务 程 序 执行 ， 会 给 
绥 冲 块 解锁 ， 随 后 也 将 原来 等 竺 该 缓冲 块 的 进程 唤 
醒 。 代 码 如 下 : 





/代码 路 径 : kernel/blk_drv/blk.h: 


extern inline void end_request (int uptodate) /处 理 请 求 项 操作 完毕 


后 的 善后 工作 
{ 
DEVICE OFF (CURRENT->dev) ; 
if (CURRENT->bh) { 
CURRENT- >bh- >b_uptodate=uptodate; 
unlock _buffer (CURRENT->bh) ; /给 缓冲 块 解锁 并 唤醒 进程 
} 
if (! uptodate) { 
printk (DEVICE NAME"I/O error\n\r") ; 
printk ("dev%04x,block%d\n\r", CURRENT->dev, 


CURRENT->bh->b_blocknr) ; 


static inline void unlock _buffer (struct buffer_head * bh) /给 缓冲 块 
解锁 并 唤醒 进程 


if (! bh->b_lock) 

print (DEVICE_NAME": free buffer being unlocked\n") ; 
bh->b_lock=0; /给 缓冲 块 解锁 

wake _up (&bh->b_wait) ; /唤醒 等 待 缓冲 块 的 进程 


} 





7.5.4 i lock, i wait. s_ lock, *s_waitHJ/E 
用 





在 共享 文件 内 容 时 ，b_lock 和 *b_wait 字 上 段 存在 
于 缓冲 块 中 ， 共 享 文件 管理 信息 和 共享 文件 内 容 是 
配套 的 ， 所 以 ， 文 件 管理 信息 的 数据 结构 也 有 同样 
类 似 的 字段 存在 ， 比 如 inode_table[32]， 
super_block[8]。 代 码 如 下 : 








/代码 路 径 : include/linux/fs.h: 
struct m_inode{ 

unsigned short i_mode; 
unsigned short i_uid; 

unsigned long i_size; 


unsigned long i_mtime; 


unsigned char i_gid; 
unsigned char i_nlinks; 
unsigned short i_zone[9]; 
/*these are in memory also*/ 
struct task_struct * i_wait; 
unsigned long i_atime; 
unsigned long i_ctime; 
unsigned short i_dev; 
unsigned short i_num; 
unsigned short i_count; 
unsigned char i_lock; 
unsigned char i_dirt; 
unsigned char i_pipe; 
unsigned char i_mount; 
unsigned char i_seek; 
unsigned char i_update; 


}; 


struct super_block{ 

unsigned short s_ninodes; 
unsigned short s_nzones; 
unsigned short s_imap_blocks; 
unsigned short s_zmap_blocks; 
unsigned short s_firstdatazone; 
unsigned short s_log_zone_size; 
unsigned long s_max_size; 
unsigned short s_magic; 
/*These are only in memory*/ 
struct buffer_head * s_imap[8]; 
struct buffer_head * s_zmap[8]; 
unsigned short s_dev; 

struct m_inode * s_isup; 

struct m_inode * s_imount; 
unsigned long s_time; 


struct task_struct * s_wait; 


unsigned char s_lock; 
unsigned char s_rd_only; 
unsigned char s_dirt; 


be 





类 似 lock 和 wait 的 字段 ， 不 仅 在 文件 管理 信息 
中 都 和 存在， 而且 ， 使 用 的 时 候 ， 也 是 联 用 的 ， 因 为 
它们 也 要 为 共享 服务 。 


inode table[32] 中 i lock 和 i wait 联 用 时 的 代码 
如 下 : 





/代码 路 径 : fs/inode.c: 


static void read_inode (struct m_inode * inode) / 读 i 贡 点 


lock inode (inode) ; /给 i 节 点 加 锁 


if C! (sb=get super (inode->i_dev) ) ) 
panic ("trying to read inode without dev") ; 
* (struct d_inode *) inode= 

( (struct d_inode *) bh->b_data) 
[ Cinode->i_num-1) %INODES_PER_BLOCK]; 
brelse (bh) ; 
unlock _inode (inode) ; /给 i 节 点 解锁 


static void write inode (struct m_inode * inode) // 写 i 节点 


ee 


lock inode (inode) ; /给 i 节 点 加 锁 
if ©! inode->i_dirt||! inode->i_dev) { 
unlock inode (inode) ; 


return; 


ee 


bh->b_dirt=1; 
inode- > i_dirt=0; 
brelse (bh) ; 


unlock inode (inode) ; /给 i 节 点 解锁 


static inline void lock_inode (struct m_inode * inode ) 


cli ©) ; 

while (inode->i_lock) /如 果 i 节 点 已 经 加 锁 
sleep _on ( &inode->i_wait) ; /将 进程 挂 起 
inode->i_lock=1; /给 ji 节点 加 锁 


sti ©) ; 


static inline void unlock _inode (struct m_inode * inode) 


inode->i_lock=0; /给 i 节 点 解锁 


wake _up (&inode->i_wait) ; // 唤 醒 等 待 市 点 解锁 的 进程 


} 





super_block[8] 中 s_lock 和 *s_wait 联 用 时 的 代码 
如 下 : 





/代码 路 径 : fs/inode.c: 


static struct super_block * read_super (int dev) // 读 超级 块 


s->s_time=0; 

s- >s_rd_only=0; 

s->s_dirt=0; 

lock _super (s) ; /给 超级 块 加 锁 
if (! (bh=bread (dev, 1) ) ) { 
s- >s_dev=0; 


free _super (s) ; 


return NULL; 


s- >s_imap[0]->b_data[0]|=1; 

s- >s_zmap[0]- >b_data[0]|=1; 
free_super (s) ; // 给 超级 块 解锁 
return s; 

} 


void put_super (int dev) // 释 放 超 级 块 


ee 


if (sb->s_imount) { 

printk ("Mounted disk changed-tssk,tssk\n\r")_ ; 
return; 

} 

lock _super (s) ; /给 超级 块 加 锁 


sb->s_dev=0; 


for (i=0; i<I MAP_ SLOTS; i++) 
brelse (sb->s_imap[i]) ; 

for (i=0; i<Z MAP SLOTS; i++) 
brelse (sb->s_zmap[i]) ; 

free super (sb) ; 


free_super (s) ; /给 超级 块 解锁 


static void lock_super (struct super_block * sb ) 

{ 

cli ©) ; 

while (sb->s_lock) /如 果 超 级 块 已 经 加 锁 
sleep _on (& (sb->s_wait) ) ; /将 进程 挂 起 
sb->s_lock=1; /给 超级 块 加 锁 

sti O) ; 

} 


static void free_super (struct super_block * sb) 


{ 

di ©) ; 

sb->s_lock=0; /给 超级 块 解锁 

wake _up (& (sb->s_wait) ) ; /唤醒 等 待 超级 块 解锁 的 进程 
sti ©) ; 


} 





7.5.5 “补充 request 的 作用 





缓冲 块 、i 节 点 、 超 级 块 等 结构 中 设置 的 字 
段 ， 为 进程 共享 缓冲 块 建立 了 基础 ， 解 决 了 “能 共 
还 是 不 能 共享 > 的 问题 。 下 面 介绍 如 何 更 高 效 地 


共享 缓冲 块 。 





本 市 到 这 里 介绍 了 缓冲 块 在 进程 方 同 上 延伸 的 
使 用 问题 。 下 面 介 绍 在 人 硬盘 方 辐 上 延伸 的 使 用 问 
题 。 我 们 来 看 请 求 项 的 数据 结构 ， 代 人 码 如 下 : 


/代码 路 径 : kernel/blk_drv/Blk.h: 
struct request{ 

int dev; /*-1 if no request*/ 
intcmd; /*READ or WRITE*/ 


int errors; 


unsigned long sector; 
unsigned long nr_sectors; 
char * buffer; 

struct task_struct * waiting; 
struct buffer_head * bh; 
struct request * next; 


} 


请 求 项 request 要 和 便 盘 进行 交互 ， 所 以 要 明确 
是 读 区 互 还 是 写 交 互 ， 为 此 设计 J 了 cmd 字段; 此 
外 ， 还 需要 明确 是 哪个 缓冲 块 要 进行 交互 ， 比 如 
*bh 和 *buffer 字 段 ， 还 需要 考虑 数据 块 与 局 区 的 映 
射 规则 ， 比 如 sector 和 nr_sectors 字 段 ; 还 需要 考虑 
如 果 交 互 出 现 了 问题 怎么 办 ， 用 errors 记 录 出 现 问 
题 的 次 数 。 这 些 字 段 都 是 为 了 与 使 盘 交 互 设 置 的 。 





硬盘 方向 完全 是 某 个 缓冲 块 和 某 个 数据 块 一 对 
一 的 交互 ， 不 存在 共享 问题 ， 所 以 请 求 项 中 也 就 没 
有 类 似 b_count 的 字段 ， 请 求 项 对 交互 状况 的 记录 ， 
只 存在 两 种 状态 : 忙 、 空 四。 因此 dev 字 段 不 仅 代 
表 设 备 号 ， 还 可 以 通过 它 来 判断 请 求 项 是 否 正在 被 
占用 ， 代 码 如 下 : 





/代码 路 径 : kernel/blk_drv/ll_rw_block.c: 

void blk_dev_init (void) 

{ 

int i; 

for (i=0; i< NR REQUEST; i++) { 

request[i].dev=-1; /把 设备 号 设置 为 -1， 标 志 着 请 求 项 都 是 空闲 的 
request[i].next=NULL; 

} 


} 


static void make_request (int major,int rw,struct buffer_head * bh) 


/*find an empty request*/ 

while (--req>=request) V// 找 一 个 空闲 的 请 求 项 

if (req->dev<0) /小 于 0， 那 肯定 就 是 -1 了 ， 说 明 空 闲 
break; 


ee 


req->dev=bh->b_dev; // 用 设备 号 来 设置 dev， 那 就 肯定 不 是 -1 
设备 号 没有 -1 这 个 值 


req- 之 cmd=rw; 

req- > errors=0; 

req- > sector=bh->b_blocknr< <1; 
req- > nr_sectors=2; 

req- > buffer=bh- > b_data; 

req- > waiting=NULL; 


req- > bh=bh; 


req- >next=NULL; 

add _request (major+blk_dev,req) ; 
} 

/代码 路 径 : kernel/blk_drv/Blk.h: 


extern inline void end_request (int uptodate ) 


wake _up (& CURRENT->waiting) ; 
wake _up ( &wait_for_request) ; 


CURRENT->dev=-1; /一 个 请 求 项 的 任务 完成 后 ， 立 即将 这 个 请 
求 项 设置 为 空闲 


CURRENT=CURRENT- > next; 


} 





另外 值得 注意 的 是 ， 请 求 项 reqdquest 设 置 为 32， 
尽 可 能 地 实现 了 主机 和 硬盘 数据 交互 的 平衡 ， 但 这 
种 平衡 并 不 绝对 ， 比 如 说 ， 写 盘 过 于 频 索 ， 或 者 由 





于 硬盘 自身 出 现 故 障 ， 导 致 数据 交互 失败 ， 就 有 可 
能 在 请 求 项 中 积压 数据 ， 最 终 导 致 请 求 项 不 够 用 
了 。 那 么 内 核 即 便 为 进程 申请 到 了 缓冲 块 ， 而 由 于 
没有 请 求 项 ， 进 程 也 只 能 被 挂 起 ， 同 样 也 需要 字段 
来 记录 哪个 进程 被 挂 起 了 。*waiting 记 录 挂 起 的 进 
程 ， 代 人 码 如 下 : 


// 代 人 码 路 径 : kernel/blk_drv/ll_rw_block.c: 


static void make_request (int major,int rw,struct buffer_head * bh) 


if (req<request) {/ 没 找到 空闲 的 请 求 项 
if (rw_ahead) { 

unlock _buffer (bh) ; 

return; 


} 


sleep _on ( &wait_for_request) ; /进程 就 挂 起 了 


goto repeat; 
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/代码 路 径 : ~kernel/blk_drv/blk.h: 


extern inline void end_request (int uptodate ) 


wake up (& CURRENT->waiting) ; 
wake _up (&wait_for_request) ; /等 待 请 求 项 的 进程 被 唤醒 
CURRENT-~>dev=-1; 


CURRENT=CURRENT-~> next; 


同 理 ， 多 个 进程 也 可 能 都 由 于 等 待 某 个 请 求 项 
钻 挂 起 ，*waiting 一 个 字段 是 无 法 记录 的 ， 同 样 需 
要 进程 等 待 队列 解决 这 个 问题 。 本 小 节 前 面 也 提 到 
了 用 *b_wait 记 录 等 待 缓冲 块 解锁 的 进程 ， 这 里 的 
*waiting 与 此 类 似 ， 都 需要 用 到 进程 等 待 队 列 的 技 
巧 来 完成 对 多 个 等 繁 进程 的 记录 。 





7.6 ”实例 1: 天 于 绥 冲 块 的 进程 等 行 队 
列 





下 面 我 们 通过 一 个 多 进程 操作 相同 文件 的 案 
例 ， 一 方面 把 共享 地 问题 形象 地 进行 体现 ， 另 一 方 
面 把 进程 等 待 队列 的 原理 讲解 清楚 。 


假设 硬 往 上 已 有 一 个 文件 名 为 hello.txt 的 文 
件 ， 这 个 文件 的 大 小 为 700 B， 小 于 一 个 数据 块 大 
小 (1 KB) ， 被 载 入 缓冲 区 后 ， 一 个 缓冲 块 就 可 以 
承载 其 全 部 内 容 ， 这 三 个 进程 一 旦 开始 操作 这 个 文 
件 ， 就 相当 于 在 依托 系统 操作 同一 个 缓冲 块 ， 这 样 
就 会 产生 进程 等 待 队列 。 本 节 将 详细 介绍 该 队列 的 
产生 过 程 ， 以 及 队列 中 进程 的 唤醒 过 程 。 








下 面 我 们 来 介绍 实例 1 的 场景 。 


进程 A 是 一 个 读 盘 进程 ， 目 的 是 将 hello.txt 文 件 


中 的 100 字 节 读 入 buffer[100]， 代 码 如 下 : 


void FunA () ; 


void main ( ) 


void FunA () 

{ 

char buffer[100]; 
int i,j; 


/打开 文件 


int fd=open ("/mnt/user/user1/user2/hello.txt", O_RDWR, 
0644) ) ; 


/ 读 文件 

read (fd,buffer,sizeof (buffer) ) ; 

/关闭 文件 

close (fd) ; 

for (i=0; i<1000000; i++) /消耗 时 间 片 
{ 

for (j=0; j<1000000; j++) 


{ 


return; 





HEREB th Æ ie eS, HAJ ce -thello.txt t 


件 中 的 200 字 节 读 入 buffer[200]， 代 码 如 下 : 





void FunB () ; 


void main ( ) 


void FunB () 

{ 

char buffer[200]; 
int i,j; 

/打开 文件 


int fd=open ("/mnt/user/user1/user2/hello.txt", O_RDWR, 
0644) ) ; 


// 读 文件 


read (fd,buffer,sizeof (buffer) ) ; 

NFA SCTE 

close (fd) ; 

for (i=0; i<1000000; i++) /消耗 时 间 片 
{ 

for (j=0; j<1000000; j++) 


{ 


} 
} 


return; 


} 





HEREC 45 HIRE, FA Æ4thello.txt x44 
中 写 入 str1[] 中 的 字符 “ABCDE”， 代 人 码 如 下 : 





void FunC () ; 


void main ( ) 


ee 


void FunC (©) 


char str1[]="ABCDE"; 
int i,j; 
/打开 文件 


int fd=open ("/mnt/user/user1/user2/hello.txt", O_RDWR, 
0644) ) ; 


/ 写 文件 
write (fd,strl, strlen (str1) ) ; 
/关闭 文件 


close (fd) ; 


for (i=0; i<1000000; i++) /消耗 时 间 片 
{ 
for (j=0; j<1000000; j++) 


{ 


} 
} 


return; 


} 


这 三 个 进程 执行 顺序 为 : 进程 A 先 执行 ， 之 后 
进程 B 执 行 ， 最 后 进程 C 执 行 。 这 三 个 进程 没有 父 
人 





下 面 我 们 来 看 具体 的 执行 过 程 。 


1. 进 程 A 读 取 文 件 后 被 挂 起 


进程 A 局 动 后 ， 执 行 “int 
fd=open (“/mnt/user/user1/user2/hello.txt” , 
O_RDWR, 0644) ) ; ”, open O 函数 最 终 会 映 
Ss Blsys_open O 函数 去 执行 。sys_open () 函数 
的 执行 情况 ， 已 在 第 5 章 中 介绍 。 代 码 如 下 : 


/代码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode ) 


ee 


ith Ccurrent->filp[fd]J=f) ->f_countt++; // 将 进程 A 的 *filp[20] 与 
file_table[64] 对 应 项 挂 接 ， 并 增加 文件 句柄 计数 


ee 


if ( (i=open_namei (filename,flag,mode, &inode) ) <0) {// 获 取 
hello.txt9CfFiTT A 


f->f_mode=inode->i_mode; /用 该 i 节 点 属性 ， 设 置 文件 属性 


f->f_flags=flag; /用 flag 参 数 ， 设 置 文件 操作 方式 


f->f_count=1; /将 文件 引用 计数 加 1 





f->f_inode=inode; /文件 与 i 节 点 建立 关系 


f->f_pos=0; /将 文件 读 写 指针 设置 为 0 





return (fd) ; // 把 文件 句柄 返 给 用 户 空间 


} 





执行 情景 如 图 7-12 所 示 。 
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图 7-12 系统 为 进程 A 打 开 hello.txt 文 件 


之 后 执行 “read (fd,buffer,sizeof (buffer) ) ” 
函数 最 终 会 映射 到 sys_read O 函数 去 执 

函数 调用 file_ read © 函数 
函数 调用 bread © 


read () 
ÍT; 之 后 ，sys_read () 
来 读 取 文件 内 容 ; file_read ©) 
函数 从 硬盘 上 读 取 数 据 。 执 行 代码 如 下 : 





/代码 路 径 : fs/read_write.c: 


int sys_read (unsigned int fd,char * buf,int count) /从 hello.txt 文 件 中 
读数 据 


{/fd 是 文件 句柄 ，buf 是 用 户 空 间 指针 ，count 是 要 读 取 的 字 廊 数 
if (S_ISDIR (inode->i mode) ||S_ISREG (inode->i mode) ) { 
if (count+file->f_pos>inode->i_size ) 

count=inode- > i_size-file- > f_pos; 

if (count<=0) 

return 0; 


retum file _ read (inode,file,buf,count) ; V/ 读 取 进 程 指定 数据 


printk (" (Read) inode->i_mode=%06o\n\r", inode->i_mode) ; 
retunn-EINVAL; 

} 

/代码 路 径 : fs/file_dev.c: 


int file_read (struct m_inode * inode,struct file * filp,char * buf,int 


count) 


if (nr=bmap (inode, (filp->f_pos) /BLOCK_SIZE) ) { 

if C! (bh=bread (inode->i_dev,nr) ) ) /从 硬盘 上 读 取 数据 
break; 

else 


bh=NULL; 





it Abread O 函数 后 的 执行 过 程 ， 我 们 在 3.3.1 
节 中 已 经 详细 说 明 。 执 行 代 码 如 下 : 





/代码 路 径 : fs/buffer.c: 
struct buffer head * bread (int dev,int block) /从 硬盘 上 读 取 数据 


{ 


if (C! (bh=getblk (dev,block) ) ) /申请 一 个 空闲 的 缓冲 块 


ll_rw_block (READ,bh) ; /将 该 缓冲 块 加 锁 并 与 请 求 项 绑 定 ， 发 
送 读 盘 指令 


wait _on_buffer (bh) ; /如 果 有 等 竺 缓冲 块 解锁 的 进程 ， 就 将 其 挂 
起 


if (bh->b_uptodate ) 
return bh; ...... 


} 





进程 A 的 挂 起 工作 是 在 wait on_buffer () 函数 
中 完成 的 ， 执 行 代码 如 下 : 





/代码 路 径 : fs/buffer.c: 


static inline void wait on_buffer (struct buffer head * bh) /如 果 有 等 
竺 缓冲 块 解锁 的 进程 ， 就 将 其 挂 起 


{ 


di © ; ZX% p WT 
while (bh->b_lock) // 检 测 缓 冲 块 是 否 已 经 加 锁 


sleep_on (&bh->b_wait) ; // 将 等 待 该 缓冲 块 的 进程 (进程 A) 挂 
起 ， 并 切换 进程 


sti © ; W 开 中 靳 


} 


fEll_rw_block () 函数 执行 时 ， 绥 冲 块 已 经 被 
加 锁 (本 书 3.3.1.3 节 中 己 介 绍 )。while (bh-> 
block) 条 件 为 真 ， 之 后 调用 sleep_on() 函数 ， 传 
递 的 实 参 是 &bh->b_wait。 其 中 bh->b_wait 表 示 等 
待 该 缓冲 块 解锁 的 进程 指针 。 由 于 系统 在 初始 化 
时 ， 已 经 将 所 有 缓冲 块 中 b_wait 的 值 设 置 为 
NULL， 此 缓冲 块 又 是 新 申请 的 ， 从 来 没有 被 其 他 
进程 用 过 ， 所 以 此 时 bh->b_wait 的 值 为 NULL。 下 
面 进入 sleep on ©) 函数 ， 执 行 代 码 如 下 : 


/代码 路 径 :， kernel/sched.c: 


void sleep_on (struct task_struct ** p) 


struct task_struct * tmp; 

if (C! p) 

return; 

if Ccurrent==& Cinit_task.task) ) 


panic ("task[O]trying to sleep") ; 





tmp=*p; // 此 时 tmp 中 保存 的 是 NULL 





*p=current; //*p 中 保存 的 是 进程 A 的 指针 


current- 之 state=TASK_UNINTERRUPTIBLE; // 将 进程 A 设置 为 不 可 
中 断 等 待 状态 


schedule © ; /切换 进程 
if (tmp) 


tmp-> state=0; 





从 前 面 对 sleep_on() 函数 的 实 参 的 介绍 中 我 
们 得 知 ， 郑 指向 的 是 bh->b_ wait。*p 中 保存 了 进程 
A 的 指针 ， 意 味 着 进程 A 此 时 正在 等 待 bh 这 个 缓冲 
块 解 锁 。 


进程 A 被 挂 起 后 ， 调 用 schedule () KAG YIR 
到 进程 B 执 行 。 


与 此 同时 ， 和 硬盘 也 正在 同 数 据 寄存 器 站 口中 传 
圳 数据 ， 此 情景 如 图 7-13 所 示 。 


ne Ox9FFFF OxFFFFF OQx3FFFFF OxSFFFFF OxFFFFFF 





S Bi 
全 [一 一 缓冲 块 
硬盘 在 不 断 该 出 数据 介 
EE N ERIS EAN A ens 
| 进程 0 进程 A 


t 
当前 进程 


图 7-13 系统 为 进程 A 读 取 hello.txt 的 数据 并 将 进 


程 A 挂 起 


图 7-13 中 代表 进程 A 的 进程 条 已 经 变 成 了 灰 
色 ， 表 示 进 程 A 已 经 挂 起 。 


值得 注意 的 是 ， 代 码 中 的 tmp 存 储 在 进程 A 的 
内 核 栈 中 ， 存 储 的 是 NULL,.bh->b_ wait 此 时 存储 的 
是 进程 A 的 指针 ， 如 图 7-14 所 示 。 





图 7-14 进程 A 被 挂 起 
2. 进 程 B 读 取 文 件 后 被 挂 起 


REJEB H ICHAT “int 
fd=open (“/mnt/user/user1/user2/hello.txt” , 
O_RDWR, 0644) ) ; ”这 行 代 码 。open © 函数 
最 终 会 映射 到 sys_open O 函数 去 执行 ; 
sys_open O 函数 会 在 文件 管理 表 人 名 e_table[64] 中 新 


申请 一 个 空闲 表 项 ， 让 进程 B task_struct 中 的 
*filp[20] 与 file_table[64] 空 表 项 挂 接 。 虽 然 进 程 B 和 
进程 A 打开 的 是 相同 的 文件 ， 但 实例 1 中 ， 这 两 个 进 
程 彼此 对 文件 的 操作 没有 关系 ， 所 以 需要 两 套 账 





执行 代码 如 下 : 


/代码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode ) 


for (fd=0; fd<NR_OPEN; fd++) 
if C! current-> filp[fd]) 


break; 


for (i=0; i<NR FILE; i++, f++) 
if ©! f->f count) break; 


(current->filp[fd]J=f) ->f_count++; /将 进程 B 的 *filp[20] 与 
file_table[64] 对 应 项 挂 接 ， 并 增加 文件 句柄 计数 


if ( Gi=open_namei (filename,flag,mode, &inode) ) <0) {/ 获 取 
hello.txtQCfFiTT A 


f->f_mode=inode->i_mode; /用 该 i 节 点 属性 ， 设 置 文件 属性 
f->f_flags=flag; /用 flag 参 数 ， 设 置 文件 操作 方式 


f->f_count=1; /将 文件 引用 计数 加 1 





f->f_inode=inode; /文件 与 i 节 点 建立 关系 





f->f_pos=0; /将 文件 读 写 指针 设置 为 0 
retum (fd) ; /把 文件 句柄 返 给 用 户 空 间 


} 








挂 接 的 情景 如 图 7-15 所 示 。 


硬盘 还 在 不 断 地 读 出 数据 ， 刚 才 进程 A 的 读 
请 求 还 没有 完成 
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图 7-15 系统 将 fip[20] 与 fle_table[64] 挂 接 


之 后 调用 open_namei © Až, 3k AMhello.txt 3 
FANT, FRAR AS file_table[64] #1422, 
执行 代码 如 下 : 





/代码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode ) 


if ( Gi=open_namei (filename,flag,mode, &inode) ) <0) {// 获 取 
hello.txt9CfFiTT A 


f->f_mode=inode->i_mode; // 用 该 节点 属性 ， 设 置 文件 属性 
f->f_flags=flag; // 用 flag 参 数 ， 设 置 文件 操作 方式 
f->f_count=1; // 将 文件 引用 计数 加 1 
f->f_inode=inode; // 文 件 与 节点 建立 关系 


f->f_pos=0; // 将 文件 读 写 指针 设置 为 0 





retum (fd) ; /把 文件 句柄 返 给 用 户 空 间 





值得 注意 的 是 ， 此 次 获取 hello.txt 文 件 的 i 节 








扩 ， 与 进程 A 获取 该 i 而 后 有 所 人 不同 ， 代 人 码 如 下 : 





// 代 人 码 路 径 : fs/namei.c: 
int open_namei (const char * pathname,int flag,int mode, 


struct m_inode ** res inode) 


if (flag & O_EXCL) 
return-EEXIST; 
if C! Cinode=iget (dev,inr) ) ) /获取 ii 点 


return-EACCES; 


/代码 路 径 : fs/namei.c: 
struct m_inode * iget (int dev,int nr) 


{ 


empty=get_empty_inode () ; /在 inode_table[32] 中 申请 空闲 的 表 项 
while (Cinode<NR_INODE+inode_table) {/ 遍 历 整个 inode_table[32] 


if (inode->i_dev! =dev||inode->i_num! =nr) {/ 如 果 没 有 找到 现 
成 的 表 项 ， 就 继续 找 


continue; 

} 

wait _on_inode (inode) ; 

if (inode->i_dev! =dev||inode->i_num! =nr) { 
continue; 

} 


inode->i_countt++; /ŻR F] 7 PLR Ahello.xisceA Ni, Sl ibe 
增加 





if Cempty) /在 inode_table[32] 中 找到 的 空闲 表 项 已 经 没 用 了 ， 将 其 


释放 
iput (empty) ; 


return inode; // 将 hello.txt 文 件 的 i 节点 返回 





申请 空 用 市 扩 的 情景 如 图 7-16 所 示 。 
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图 7-16 系统 为 载 入 i 节 点 创造 条 件 


一 个 文件 只 能 对 应 一 个 1 节点 。 进 程 A 和 进程 B 
对 文件 的 操作 ， 需 要 两 本 账 来 记录 。 但 它们 操作 的 
hello.txt 文 件 的 节点 只 能 有 一 个 ， 而 进程 A 已 经 把 i 
节点 载 入 了 inode_table[32]， 现 在 进程 B 就 要 沿用 这 


个 i 节 点 


INO 


上 述 代 码 中 对 i 节操 的 操作 情景 如 图 7-17 所 示 。 
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ee | 


图 7-17 系统 为 进程 B 找 到 了 hello.txt 文 件 已 经 载 
入 的 i 节点 


文件 打开 后 ， 进 程 B 执 
行 “read (fd,buffer,sizeof (buffer) ) ; ”这 行 代码 ， 


读 取 hello.txt 文 件 的 内 容 。 


read O 六 数 最 终 会 映射 到 sys_read O 函数 去 
执行 ， 之 后 ，sys_read〈) 函数 调用 file_read () ph 
数 来 读 取 文 件 内 容 ，file read O 函数 调用 
bread O 函数 从 硬盘 上 读 取 数 据 ， 执 行 代 码 如 下 : 





/代码 路 径 : fs/read_write.c: 


int sys_read (unsigned int fd,char * buf,int count) /从 hello.txt 文 件 中 
读数 据 


{//fd 是 文件 句柄 ，buf 是 用 户 空 间 指针 ，count 是 要 读 取 的 字 节 数 
if (S_ISDIR (inode->i mode) ||S_ISREG (inode->i mode) ) { 
if (count+file->f pos>inode->i_ size) 

count=inode- > i_size-file- > f_pos; 

if Ccount<=0 ) 


return 0; 


return file_read Cinode,file,buf,count) ; // 读 取 进 程 指定 数据 
} 

printk (" (Read) inode->i_mode=%060\n\r", inode->i_mode) ; 
retun-EINVAL; 

} 

/代码 路 径 : fs/file_dev.c: 


int file_read (struct m_inode * inode,struct file * filp,char * buf,int 
count) 


if (nr=bmap (inode, (filp->f_pos) /BLOCK_SIZE) ) { 

if C! (bh=bread (inode->i_dev,nr) ) ) /从 硬盘 上 读 取 数据 
break; 

}else 


bh=NULL; 


ee 





it Abread O 函数 后 的 执行 过 程 ， 我 们 在 3.3.1 


市 中 已 经 详细 说 明 。 执 行 代码 如 下 : 





/代码 路 径 : fs/buffer.c: 


struct buffer_head * bread (int dev,int block) /从 硬盘 上 读 取 数据 


if C! (bh=getblk (dev,block) ) ) /申请 一 个 空闲 的 缓冲 块 


ll_rw_block (READ,bh) ; /将 该 缓冲 块 加 锁 并 与 请 求 项 绑 定 ， 发 


Pave es 

wait _on_buffer (bh) ; /如 果 有 等 待 缓冲 块 解锁 的 进程 ， 就 将 其 挂 
起 

if (bh->b_uptodate ) 

return bh; 


其 中 getblk © 函数 和 ]L_rw_block ©) 函数 的 
执行 情景 有 所 不 同 。 进 入 getblk O 函数 后 ， 由 于 
hello.txt 文 件 对 应 的 数据 块 已 被 载 入 缓冲 区 ， 直 接 
返回 ， 代 码 如 下 : 


/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk Cint dev,int block) /申请 绥 冲 块 


if (bh=get_hash_table (dev,block) ) /此 时 在 哈 希 表 中 可 以 找到 指 
定 的 缓冲 块 


return bh; /直接 返回 bh 指 针 


之 后 执行 ]]_rw_block © 函数 。 由 于 缓冲 块 已 


经 被 加 锁 ， 所 以 进程 B 将 因 等 竺 该 缓冲 其 解锁 而 家 
系统 挂 起 ， 执 行 代码 如 下 : 





/代码 路 径 : kernel/blk_drv/ll_rw_block.c: 


void ll_rw_block (int rw,struct buffer head * bh) 


unsigned int major; 

if © (major=MAJOR (bh->b_dev) ) >=NR_BLK_DEV]| 

! Cblk_dev[major].request_fn) ) { 

printk ("Trying to read nonexistent block-device\n\r") ; 

return; 

} 

make _request (major,rw,bh) ; /设置 请 求 项 

} 

static void make_request (int major,int rw,struct buffer_head * bh) 


{ 


ee 


lock _buffer (bh) ; // 将 bh 指向 的 缓冲 块 加 锁 


if ( (rw==WRITE& & ! bh->b_dirt) || (rw==READ & &bh-> 
b_uptodate) ) { 


unlock _buffer (bh) ; 


return; 


ecco oo 


static inline void lock_buffer (struct buffer_head * bh) // 给 缓冲 块 加 
锁 


{ 

cli ©) ; 

while (bh->b_lock) /如 果 缓 冲 块 已 经 加 锁 

sleep_on (&bh->b_wait) ; // 束 将 等 待 缓 冲 块 解锁 的 进程 挂 起 


bh->b_lock=1; /程序 执行 到 这 里 ， 说 明 缓冲 块 此 时 没有 加 锁 ， 于 
是 给 它 加 锁 


sti () ; 


接 下 来 执行 sheep on () 函数 。 因 为 实例 1 中 
进程 A 和 进程 B 操 作 的 是 同一 文件 ， 对 应 相同 的 绥 
冲 块 bhb， 该 缓冲 块 中 b_wait 的 值 被 设置 为 进程 A 的 
task_struct 指 针 ， 所 以 此 次 执行 sheep on《〈) 函数 的 
情景 ， 与 前 面 进程 A 执行 时 的 情景 完全 不 同 ， 代 码 
uh 








// 代 码 路 径 : kernel/sched.c: 

void sleep_on (struct task_struct ** p) 
{ 

struct task_struct * tmp; 

if (C! p) 

return; 


if Ccurrent==& (init task.task) ) 


panic ("task[O]trying to sleep") ; 





tmp=*p; // 此 时 tmp 中 保存 的 是 进程 A 的 task_struct 指 针 





*p=current; //*p 中 保存 的 是 进程 B 的 task_struct 指 针 


current- 之 state=TASK_UNINTERRUPTIBLE; // 将 进程 B 设 置 为 不 可 
中 断 等 待 状 态 


schedule © ; /切换 进程 
if (tmp) 
tmp- > state=0; 


} 





进程 B 被 挂 起 后 ， 调 用 schedule () AAi, Yh 
到 进程 C 执 行 。 


与 此 同时 ， 和 硬盘 也 正在 同 数 据 寄存 器 站 口中 传 
圳 数据 ， 此 情景 如 图 7-18 所 示 。 
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图 7-18 进程 B 被 挂 起 的 情景 


值得 注意 的 是 ， 代 人 码 中 的 tmp 存 储 在 进程 B 的 内 
核 栈 中 ， 存 储 的 是 进程 A 的 task_struct 指 针 ，bh-> 
b_wait 此 时 存储 的 是 进程 B 的 指针 ， 如 图 7-19 所 示 。 








Al 7-19 进程 B 被 挂 起 ， 构 成 进程 等 每 队列 的 情 
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进程 C 开 始 执 行 后 ， 同 样 操作 hello.txt 文 件 ， 问 
该 文件 中 写 入 数据 。 进 程 C 执 行 的 技术 路 线 与 进程 
B 大 体 一 致 ， 允 执行 “int 
fd=open (“/mnt/user/user1/user2/hello.txt”, 


O_RDWR, 0644) ) ; ”这 行 代 码 ，open ©) 函数 


最 终 会 映射 到 sys_open O 函数 去 执行 。 
sys_open O 函数 最 终 的 执行 结果 为 ， 在 
file_table[64] 中 再 次 申请 一 个 空闲 表 项 ， 进 程 C 
task_struct 中 的 *filp[20] 与 外 e_table[64] 中 的 空闲 表 
项 挂 接 。 


之 后 sys_open () 畏 数 调用 open_namei () 图 
数 ， 同 样 会 在 i 节 点 表 inode_table[32] 中 找到 该 文件 
的 i 玉 点 ， 该 i 贡 点 的 引用 计数 再 次 加 1， 执 行 代码 如 
下 : 


/代码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode ) 


ee 


(current->filp[fd]=f) ->f_countt++; /将 进程 C 的 *filp[20] 与 
file_table[64] 对 应 项 挂 接 ， 并 增加 文件 句柄 计数 


if ( Gi=open_namei (filename,flag,mode, &inode) ) <0) {// 获 取 
hello.txt 文 件 i 节 点 


f->f_mode=inode->i_mode; /用 该 i 节 点 属性 ， 设 置 文件 属性 
f->f_flags=flag; /用 flag 参 数 ， 设 置 文件 操作 方式 


f->f_count=1; /将 文件 引用 计数 加 1 





f->f_inode=inode; /文件 与 i 节 点 建立 关系 


f->f_pos=0; /将 文件 读 写 指针 设置 为 0 





retum (fd) ; // 把 文件 句柄 返 给 用 户 空 间 


} 





此 情景 如 图 7-20 所 示 。 
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图 7-20 ”进程 C 准 备 读 取 hello.txt 文 件 


进程 C 继 续 执行 “write (fd,str1, 
strlen Cstr1) ) ; ”这 行 代 人 码 ， 往 hello.txt 文 件 写 入 
数据 。 


write O 函数 最 终 会 映射 到 sys_write〈) 函数 


AUT, sys_write © RACHA file_write O 函数 
来 读 取 文 件 内 容 ，fe_ write ©) 函数 调用 bread © 
国 数 从 人 硬盘 上 读 取 数据 ， 执 行 代 但 如 下 : 





/代码 路 径 : fs/read_write.c: 


int sys_write (unsigned int fd,char * buf,int count) //[AJhello.txt3¢(F F 
写 入 数据 


{/fd 是 文件 句柄 ，buf 是 用 户 空 间 指针 ，count 是 要 写 入 的 字 市 数 
if (S_ISBLK (inode->i mode) ) 

return block_write (inode->i_zone[0], &file->f_pos,buf,count) ; 
if (S_ISREG (inode->i_mode) ) 

return file_write (inode,file,buf,count) ; // 写 入 进程 指定 数据 
printk (" (Write) inode->i_mode=%06o\n\r", inode->i_mode) ; 
return-EINVAL; 

} 


/代码 路 径 : fs/file_dev.c: 


int file_write (struct m_inode * inode,struct file * filp,char * buf, int 
count ) 


if C! Cblock=create_block Cinode,pos/BLOCK_SIZE) ) ) 
break; 

if C! (bh=bread (inode->i_dev,nr) ) ) // 往 人 硬盘 上 写 入 数据 
c=pos%BLOCK_SIZE; 

p=c+bh->b_data; 


bh->b_dirt=1; 





进入 bread O 函数 后 的 执行 过 程 ， 与 进程 B 一 
致 ， 执 行 代 码 如 下 : 





/代码 路 径 : fs/buffer.c: 


struct buffer_head * bread (int dev,int block) /从 硬盘 上 读 取 数据 


if (! (bh=getblk (dev,block) ) ) /申请 一 个 空闲 的 缓冲 块 


ll_rw_block (READ,bh) ; /将 该 缓冲 块 加 锁 并 与 请 求 项 绑 定 ， 发 
送 读 盘 指令 


wait _on_buffer (bh) ; /如 果 有 等 待 缓冲 块 解锁 的 进程 ， 就 将 其 挂 
起 


if (bh->b_uptodate ) 
return bh; 





it Agetblk O 函数 后 ， 由 于 hello.txt 文 件 对 应 
的 数据 块 已 被 载 入 缓冲 区 ， 直 接 返 回 ， 代 码 如 下 : 





/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block) /申请 绥 冲 块 


{ 
struct buffer_head * tmp, *bh; 


repeat: 


if (bh=get_hash_table (dev,block) ) /此 时 在 哈 希 表 中 可 以 找到 指 
定 的 缓冲 块 


retum bh; /直接 返回 bh 指 针 
tmp=free_list; 


执行 ]rw_block ©) 函数 。 由 于 缓冲 块 已 经 被 
加 锁 ， 所 以 进程 C 也 将 因 等 待 该 缓冲 块 解 锁 而 被 系 
统 挂 起 (操作 的 是 相同 的 缓冲 块 )， 执 行 代码 如 
下 : 


// 代 人 码 路 径 : kernel/blk_drv/ll_rw_block.c: 


void ll_rw_block (int rw,struct buffer head * bh) 


unsigned int major; 

if © (major=MAJOR (bh->b_dev) ) >=NR_BLK_DEV]| 
! (blk_dev[major].request_fn) ) { 

printk ("Trying to read nonexistent block-device\n\r") ; 
return; 

} 

make _request (major,rw,bh) ; /设置 请 求 项 

} 


static void make_request (int major,int rw,struct buffer_head * bh) 


ee 


lock _buffer (bh) ; // 将 bh 指向 的 缓冲 块 加 锁 


if ( (rw==WRITE& & ! bh->b_dirt) || (rw==READ & &bh-> 
b_uptodate) ) { 


unlock _buffer (bh) ; 


return; 


static inline void lock_buffer (struct buffer_head * bh) /给 缓冲 块 加 
锁 


{ 

cli ©) ; 

while (bh->b_lock) /如 果 缓 冲 块 已 经 加 锁 

sleep_on (&bh->b_wait) ; // 束 将 等 待 缓 冲 块 解锁 的 进程 挂 起 


bh->b_lock=1; /程序 执行 到 这 里 ， 说 明 组 冲 块 此 时 没有 加 锁 ， 于 
是 给 它 加 锁 


sti () ; 


} 





接 下 来 执行 sheep_on() 函数 。 因 为 实例 1 中 
进程 A、 进 程 B 和 进程 C 操 作 的 是 同一 文件 ， 对 应 相 





同 的 缓冲 块 bh， 我 们 已 经 介绍 到 该 缓冲 块 中 b_wait 
的 值 被 设置 为 进程 B 的 task_struct 指 针 ， 所 以 此 次 执 
4Tsheep_on O 函数 的 情景 ， 与 前 面 进程 B 执 行 时 
的 情景 完全 不 同 ， 代 码 如 下 : 


/代码 路 径 : kernel/sched.c: 

void sleep_on (struct task_struct ** p) 
{ 

struct task_struct * tmp; 

if (C! p) 

return; 

if (current==& (init_task.task) ) 


panic ("task[O]trying to sleep") ; 





tmp=*p; /此 时 tmp 中 保存 的 是 进程 B 的 task_struct 指 针 





*p=current; //*p 中 保存 的 是 进程 C 的 task_struct 指 针 


current->state=TASK_UNINTERRUPTIBLE; // 将 进程 C 设 置 为 不 可 
中 断 等 待 状态 


schedule © ; /切换 进程 
if (tmp) 
tmp- > state=0; 


} 


进程 C 被 排 起 后 ， 调 用 schedule © 函数 ， 此 时 
系统 中 已 经 没有 束 绪 的 进程 了 ， 因 此 切换 到 进程 0 
执行 。 


与 此 同时 ， 和 硬盘 也 正在 同 数 据 寄存 器 站 口中 传 
圳 数据 ， 此 情景 如 图 7-21 所 示 。 
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图 7-21 进程 C 被 挂 起 后 的 情景 


值得 注意 的 是 ， 代 码 中 的 tmp 存 储 在 进程 C 的 内 
核 栈 中 ， 存 储 的 是 进程 B 的 task_struct 指 针 ，bh-> 
b_wait 此 时 存储 的 是 进程 C 的 指针 ， 如 图 7-22 所 示 。 
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图 7-22 进程 C 被 挂 起 ， 加 入 等 竺 队列 的 情景 





此 时 的 情况 是 ， 三 个 进程 因 等 待 bn 缓冲 块 解锁 
而 被 系统 挂 起 ， 于 是 形成 了 一 个 等 竺 队列 。 挂 起 
前 ， 每 个 进程 的 内 核 栈 中 者 保存 大 前 面 被 挂 起 进程 
的 task_struct 指 针 。 图 7-22 表 现 的 就 是 这 个 等 待 队 
列 。 这 个 队列 的 作用 在 于 ， 等 到 缓冲 块 解锁 时 ， 操 
作 系 统 可 以 根据 每 个 被 唤醒 的 进程 中 内 核 栈 的 记 
录 ， 来 唤醒 在 此 进程 挂 起 之 前 被 挂 起 的 进程 ， 这 
样 ， 所 有 等 竺 缓冲 块 解锁 的 进程 将 被 依次 唤醒 。 只 
体 过 程 将 在 下 面 详细 介绍 。 





4. 三 个 进程 以 相反 的 顺序 被 唤醒 


此 时 进程 A、 进 程 B 和 进程 C 都 已 经 被 挂 起 了 ， 
RRP ATA ERE BAF AE AAS Soo FEUER 
切换 到 进程 0 去 执行 ， 直 到 数据 读 取 完 毕 ， 硬 盘 产 
生 中 断 ， 如 图 7-23 所 示 。 
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图 7-23 再 次 切换 到 进程 0 执行 


使 盘 中 断 产 生 后 ， 中 断 服务 程序 将 开始 工作 。 


此 时 硬盘 已 经 将 指定 的 数据 全 部 载 入 缓冲 块 。 中 断 
服务 程序 开始 工作 后 ， 将 bh 缓 冲 块 解锁 ， 并 调用 
wake_up () 函数 ， 将 bh 中 wait 字 段 所 对 应 的 进程 
(进程 C) 唤醒 ， 执 行 代 但 如 下 : 





/代码 路 径 : kernel/blk_drv/Blk.h: 

extern inline void end_request (int uptodate ) 
{ 

DEVICE OFF (CURRENT->dev) ; 

if (CURRENT->bh) { 

CURRENT- >bh->b_uptodate=uptodate; 


unlock buffer (CURRENT->bh) ; /将 缓冲 块 解锁 


extern inline void unlock_buffer (struct buffer head * bh) 


{ 

if C! bh->b_lock) 

print (DEVICE_NAME": free buffer being unlocked\n") ; 
bh->b_lock=0; /将 缓冲 块 解锁 


wake up (&bh->b_wait) ; /唤醒 等 待 缓冲 块 解 锁 的 进程 


} 


调用 wake_up〈) 函数 时 ， 传 递 的 参数 是 &bh- 
>b_wait。 从 进程 等 待 队列 图 中 不 难 发现 ，bh-> 
b_wait 指 向 的 是 进程 C 的 task_struct 指 针 ， 所 以 唤醒 
的 是 进程 C。 


wake_up O 函数 执行 代码 如 下 : 





/代码 路 径 : kernel/sched.c: 
void wake_up (struct task_struct ** p) 


{ 


if (p&&*p) { 

(**p) .state=0; /这 里 将 进程 C 设 置 为 就 绪 态 
*p=NULL; 

} 


} 


此 设 星 的 情景 如 图 7-24 所 示 。 
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图 7-24 进程 C 被 唤醒 


中 断 服务 程序 结束 后 ， 再 次 返回 进程 0 中 ， 并 


WIRE RA EFEC. WERECzE fEsleep_on O 函数 
H, H y schedule O 函数 进行 的 进程 切换 ， 

此 ， 进 程 C 最 终 回 到 sleep on O 函数 中 ， 首 先 要 执 
行 的 代码 如 下 : 


/代码 路 径 :， kernel/sched.c: 


void sleep_on (struct task_struct ** p) 


schedule () ; 
if (tmp) 
tmp->state=0; // 将 tmp 所 对 应 的 进程 设置 为 就 绪 态 


} 


我 们 来 看 图 7-25。 











图 7-25 进程 C 被 唤醒 ， 退 出 进程 等 待 队列 


此 时 内 核 中 程序 在 执行 ， 所 使 用 的 是 进程 C 的 
内 核 栈 ， 这 样 tmp 对 应 的 是 进程 B 的 task_struct 指 
针 ， 所 以 此 时 是 将 进程 B 设 置 为 就 绪 态 。 


此 设置 的 情景 如 图 7-26 所 示 。 
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图 7-26 将 进程 B 噬 醒 





内 核 继续 执行 ， 将 把 进程 C 的 产程 序 中 指定 的 
str1 这 个 字符 数组 中 的 数据 写 入 hello.txt 文 件 对 应 的 
缓冲 块 中 ， 执 行 代码 如 下 : 





/代码 路 径 : fs/file_dev.c: 


int file_write (struct m_inode * inode,struct file * filp,char * buf,int 
count) 


if (pos>inode->i_size) { 
inode- > i_size=pos; 

inode- >i_dirt=1; 

} 

i+=C; 


while (c-->0) 


* (p++) =get_fs_byte (buf++) ; /将 字符 串 写 入 缓冲 块 


brelse (bh) ; 





写 入 的 情景 如 图 7-27 所 示 。 
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图 7-27 系统 为 进程 C 将 数据 写 入 指定 缓冲 块 


之 后 返回 进程 C 的 用 户 程序 中 ， 执 行 如 下 代 


位: 


for (i=0; i<1000000; i++) /消耗 时 间 片 
{ 
for (j=0; j<1000000; j++) 


{ 


执行 过 程 中 ， 时 钟 中 断 不 断 产 生 ， 进 程 C 的 时 
间 户 被 不 断 地 削减 ， 如 图 7-28 所 示 。 
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图 7-28 进程 C 执 行 过 程 中 ， 时 间 片 不 断 痢 减 


注意 各 个 进程 执行 状态 的 进程 条 中 ， 进 程 C 的 
时 间 乒 在 不 断 地 削减 ， 如 图 7-29 所 示 。 
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图 7-29 ”进程 C 的 时 间 片 减少 到 0 


进程 C 的 时 间 所 削减 为 0 时 ， 要 切换 进程 了 。 前 


面 已 经 介绍 到 ， 进 程 C 被 唤醒 后 ， 系 统 的 第 一 件 事 
就 是 将 进程 B 设 置 为 融 绪 态 。 此 时 系统 中 只 有 进程 
B 和 进程 C 两 个 进程 是 就 绪 态 ， 进 程 C 的 时 间 方 用 完 
了 ， 就 会 切换 到 进程 B 去 执行 ， 如 图 7-30 所 示 。 
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图 7-30 切换 到 进程 B 执 行 


进程 B 也 是 在 sleep on O 函数 中 ， 调 用 了 
schedule © 函数 进行 的 进程 切换 ， 因 此 ， 进 程 B 最 
终 回 到 sleep on ©) 函数 中 ， 首 先 要 执行 的 代码 如 
下 : 


/代码 路 径 : ~kernel/sched.c: 


void sleep_on (struct task_struct ** p) 


schedule () ; 
if (tmp) 
tmp->state=0; // 将 tmp 所 对 应 的 进程 设置 为 就 绪 态 


} 





我 们 来 看 图 7-31。 





图 7-31 进程 B 被 唤醒 ， 退 出 进程 等 待 队列 





此 时 内 核 中 程序 在 执行 ， 所 使 用 的 是 进程 B 的 
内 核 栈 ， 这 样 tmp 对 应 的 是 进程 A 的 task_struct 指 
针 ， 所 以 此 时 是 将 进程 A 设置 为 束 绪 态 。 





唤醒 进程 A 的 情景 如 图 7-32 所 示 。 








当前 进程 为 进程 B， 将 缓冲 块 中 指定 的 数据 读 
出 ， 执 行 代码 如 下 : 


/代码 路 径 : fs/file_dev.c: 


int file_read (struct m_inode * inode,struct file * filp,char * buf,int 
count) 


if (bh) { 
char * p=nr+bh->b_data; 


while (chars-->0) 


put _fs_byte (* (p++) , buf++) ; /将 数据 读 入 进程 B 用 户 空间 
brelse (bh) ; 

selse{ 

while (chars-->0) 


put _fs byte (0, buf++) ; 





} 
} 
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图 7-32 唤醒 进程 A 


之 后 回 到 进程 B 的 程序 中 执行 如 下 代码 : 





for (i=0; i<1000000; i++) /消耗 时 间 片 
{ 
for (j=0; j<1000000; j++) 


{ 


随 腹 时 钟 中 断 的 不 断 产生 ， 进 程 B 的 时 间 户 削 
减 为 0 后 ， 由 于 此 时 系统 中 只 有 进程 A 处 于 吏 绪 态 ， 
而 且 它 的 时 间 所 没有 被 削减 为 0， 所 以 融会 切换 到 
进程 A 去 执行 ， 如 图 7-33 所 示 。 
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图 7-33 切换 到 进程 A 执 行 


进程 A 也 是 在 sleep on O) 函数 中 ， 调 用 了 
schedule () 函数 进行 的 进程 切换 ， 因 此 ， 进 程 A 最 
终 回 到 sleep on 〈) 函数 中 ， 首 先 要 执行 的 代码 如 
下 : 


/代码 路 径 : kernel/sched.c: 


void sleep_on (struct task_struct ** p) 


schedule () ; 


if (tmp) /此 时 tmp 为 NULEL 





tmp->state=0; /这 里 代码 不 执行 ， 不 再 唤醒 进程 了 


} 





此 次 执行 的 情景 不 太一 样 ， 我 们 来 看 图 7-34。 
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图 7-34 进程 A 被 唤醒 ， 退 出 进程 等 符 队 列 


此 时 内 核 中 程序 在 执行 ， 所 使 用 的 是 进程 A 的 
内 核 栈 ， 这 样 tmp 对 应 的 是 NULL， 不 会 再 唤醒 进程 
Jz 


以 上 就 是 进程 等 待 队列 中 ， 进 程 被 唤醒 的 过 


程 。 这 三 个 进程 挂 起 的 顺序 依次 为 进程 A、 进 程 
B、 进 程 C。 前 面 介 绍 的 唤醒 顺序 为 进程 C、 进 程 
B、 进 程 A， 刚 好 与 挂 起 的 顺序 相反 。 


7.7 总体 来 看 绥 冲 块 和 请 求 项 


b_dev、b_blocknr 是 绥 冲 区 中 数据 停留 的 标 
志 。 在 对 缓冲 块 的 实际 应 用 中 ， 内 核 并 没有 刻意 清 
除 这 两 个 字段 。 这 意味 着 ， 如 果 持 续 新 申请 缓冲 
块 ， 那 么 很 快 所 有 的 缓冲 块 就 都 会 与 数据 块 绑 定 。 
这 时 再 申请 缓冲 块 ， 就 只 能 用 新 的 绑 定 关系 替换 旧 
的 绑 定 关系 ， 这 个 缓冲 块 中 已 有 的 数据 作废 。 这 体 
现 了 让 缓冲 区 中 的 数据 在 缓冲 区 中 停留 的 时 间 尽 可 
能 长 的 策略 。 


为 了 能 够 让 数据 多 停留 一 段 时 间 ， 内 核 要 做 到 
尽 可 能 地 不 申请 新 的 缓冲 块 ， 能 治 用 已 经 建立 绑 定 
天 系 的 缓冲 块 融 沿 用 ， 实 在 不 行 了 ， 非 得 申请 不 可 
了 ， 再 去 申请 。 这 一 做 法 在 代码 中 的 体现 如 下 : 








/代码 路 径 : fs/buffer.c: 
struct buffer_head * getblk (int dev,int block) /申请 绥 冲 块 
{ 


repeat: 


if (bh=get_hash_table (dev,block) ) /如 果 发 现 缓冲 块 与 指定 设备 
(dev) 指定 数据 块 (block) GABE 


return bh; /直接 用 现成 的 


tmp=free_list; // 如 果 没 找到 符合 指定 标准 的 绑 定 缓冲 块 ， 再 说 申请 
新 缓冲 块 


do{ 
/*and repeat until we find something good*/ 


while ( (tmp=tmp->b_next_free) ! =free_list) ; 





从 以 上 代码 中 不 难 发 现 ， 内 核 移 搜索 哈 希 表 ， 


通过 比 对 b dev. b_blocknr, XAI Ga LYE 
用 ， 如 果 可 以 ， 直 接 返 回 使 用 就 可 以 ， 实 在 不 行 ， 
再 执行 do...... while 循 环 ， 新 申请 缓冲 块 。 








下 面 我 们 来 看 新 申请 缓冲 块 时 的 情景 。 


代码 如 下 : 


1/ 代码 路 径 : fs/buffer.c: 


#define BADNESS (bh) ( ( (bh) ->b_dirtt<<1) + (bh) -> 
b_lock) 


struct buffer_head * getblk (int dev,int block) /申请 绥 冲 块 


tmp=free_list; 
do{ 
if (tmp->b_count) /如 果 绥 冲 块 是 被 占用 的 ， 直 接 跳 过 本 次 循环 


continue; 


if (! bh|IBADNESS (tmp) <BADNESS (bh) ) {/ 权 衡 
BADNESS， 选 择 缓冲 块 


bh=tmp; 

if (! BADNESS (tmp) ) 

break; 

} 

/*and repeat until we find something good*/ 

while ( (tmp=tmp->b_next_free) ! =free_list) ; 





DUVET ize, Mee POA, BF 
区 中 所 有 绥 冲 块 都 不 能 被 进程 沿用 了 ， 内 核 必须 申 
请 一 个 新 缓冲 块 。 申 请 的 时 候 ， 从 free_list 表 头 开始 
搜索 ， 这 和 是 为 了 尽 可 能 不 破坏 已 经 绑 定 数据 块 的 组 
冲 块 ， 让 它们 多 停留 在 缓冲 区 一 会 儿 ， 实 在 不 行 了 
《比如 缓冲 区 中 所 有 缓冲 世 都 和 效 据 块 绑 定 了 ) ， 








ABA UF KA BRERA J 





Vas TUT, EEx AE PIT SH 


循环 里 面 并 没有 分 析 b_uptodate 字 段 。 这 是 因 
为 ， 既 然 前 面 搜索 哈 希 表 时 已 经 确认 ， 没 有 合适 的 
可 以 沿用 的 缓冲 块 了 了 ， 那 么 这 就 意味 着 ， 对 于 当前 
进程 而 言 ， 绥 冲 区 中 所 有 绥 冲 块 的 内 容 已 经 不 可 用 
了 ， 它 们 是 不 是 更 新 了 ，b_uptodate 是 1 还 是 0， 都 
无 所 谓 ， 所 以 此 时 也 就 无 须 分 析 b_uptodate 的 数值 
Ja 








循环 中 首先 判断 b_count 是 否 为 0。 如 果 不 为 0， 
说 明 绥 冲 块 正在 被 其 他 进程 共 圣 ， 妆 前 进程 不 能 废 
除 正 在 被 其 他 进程 共 圣 的 缓冲 块 ， 这 个 缓冲 块 不 能 
H, AREA EH ERR. MRE eH xX te 





KAS Rb count RR, HbA HERE A Bete 
起 了 。 


代码 如 下 : 





1/ 代码 路 径 : fs/buffer.c: 


#define BADNESS (bh) ( ( (bh) ->b_dirtt<<1) + (bh) -> 
b_lock ) 


struct buffer_head * getblk Cint dev,int block) /申请 绥 冲 块 


tmp=free_list; 

do{ 

if (tmp->b_count) /M RARER AAW, BRO AAA 
continue; 

if C! bh|IBADNESS (tmp) <BADNESS (bh) ) { 


bh=tmp; 


if (! BADNESS (tmp) ) 

break; 

} 

/*and repeat until we find something good*/ 

while ( (tmp=tmp->b_next_free) ! =free_list) ; 
if C! bh) {/ 最 终 也 没 找 到 b_count 为 0 的 缓冲 块 
sleep _on ( &buffer_wait) ; /当前 进程 只 好 挂 起 


goto repeat; 


ee 





如 果 找 到 了 b_count 为 0 的 缓冲 块 ， 还 有 两 个 字 
段 会 左右 进一步 的 选择 。 一 个 是 b_dirt， 另 一 个 是 
b_lock。 如 采 这 两 个 字段 都 为 0， 选 择 这 样 的 绥 冲 块 
再 合适 不 过 了 ， 可 以 直接 使 用 。 如 采 b_lock 和 b_dirt 


中 有 一 个 是 1， 那 么 选择 哪个 合适 呢 ? 相 比 来 讲 ， 
选择 b_lock 为 1 的 更 为 有 利 。 理 由 是 ， 这 两 个 字段 有 
一 个 为 1， 当 前 进程 肯定 都 不 能 使 用 了 ， 肯 定 要 
等 ， 相 比 之 下 等 的 时 间 当 然 越 少 越 好 。b_lock 为 1， 
说 明 该 缓冲 块 正在 跟 硬 盘 交 互 数据 ， 交 互 完 了 ， 最 
终 轮 到 当前 进程 使 用 。 而 b_dirt 为 1， 说 明 在 建立 新 
的 绑 定 关系 之 前 ， 肯 定 需要 把 数据 同步 到 硬盘 ， 同 
步 的 时 候 肯 定 要 加 锁 一 一 b_lock 秆 1。 所以， 选择 
b_lock 为 1 的 比 选择 b_dirt 为 1 的 ， 少 等 待 由 b_dirt 为 1 
到 b_lock 为 1 的 时 间 。 这 一 点 从 如 下 代码 中 也 可 以 看 
出 来 。 代 码 如 下 : 








/代码 路 径 : fs/buffer.c: 


#define BADNESS (bh) ( © (bh) ->b_dirt<<1) + (bh) -> 
b_lock ) 


struct buffer_head * getblk Cint dev,int block) /申请 绥 冲 块 


tmp=free_list; 

do{ 

if (tmp->b_count) /如 果 绥 冲 块 是 被 占用 的 ， 直 接 跳 过 本 次 循环 
continue; 

if (! bh|IBADNESS (tmp) <BADNESS (bh) ) { 

bh=tmp; 

if (! BADNESS (tmp) ) 


break; 


/*and repeat until we find something good*/ 

while ( (tmp=tmp->b_next_free) ! =free_list) ; 
if C! bh) {/ 最 终 也 没 找 到 b_count 为 0 的 缓冲 块 
sleep on ( &buffer_wait) ; /当前 进程 只 好 挂 起 


goto repeat; 


while (bh->b_dirt) {/ 如 果 申 请 到 b_dirt 为 1 的 缓冲 块 ， 直 接 写 盘 。 
写 完 了 ， 当 前 进程 再 使 用 


sync _dev (bh->b_dev) ; 
wait _on_buffer (bh) ; 
if (bh->b_count) 


goto repeat; 


可 见 ， 先 不 去 申请 b_dirt 为 1 的 缓冲 块 ， 更 能 让 
进程 尽快 执行 ， 对 它 更 有 利 ， 所 以 ，#define 
BADNESS (bh) ( ( (bh) ->b_dirtt<<1) + 
(bh) ->b_lock) 中 ， 将 b_dirt 左 移 一 位 ， 使 之 权 
重 更 高 。BADNESS (tmp) <BADNESS (bh) 这 





ITEE, Eb dev, b blocknr、b count 同等 条 件 
下 ， 使 b_ dirt 尽 可 能 靠 后 被 申请 到 。 





7.8 ”实例 2， 多 进程 操作 文件 的 综合 
例 


下 面 我 们 通过 一 套 多 进程 操作 文件 的 和 案例， 对 
绥 冲 其 的 选择 以 及 请 求 项 的 使 用 等 进行 介绍 


进程 A 是 一 个 写 盘 进程 ， 目 的 是 往 hello1.txt 文 
件 中 写 入 str1[] 中 的 字符 “ABCDE”， 代 码 如 下 : 


void FunA () ; 


void main ( ) 


void FunA () 


char str1[]="ABCDE"; 
int i; 
/打开 文件 


int fd=open ("/mnt/user/user1/user2/hellol1.txt", O_RDWR, 
0644) ) ; 


for (i=0; i<1000000; i++) 

{ 

WEE 

write (fd,str1, strlen (str1) ) ; 
} 

/关闭 文件 

close (fd) ; 


return; 


进程 B 是 一 个 写 盘 进程 ， 目 的 是 往 hello2.txt 文 
IFRS Astri] H EIF ABCDE”, REU TF: 





void FunB () ; 


void main () 


ee 


void FunB () 

{ 

char str1[]J="ABCDE"; 
int i; 

IIIENA 


int fd=open ("/mnt/user/user1/user2/hello2.txt", O_RDWR, 
0644) ) ; 


for (i=0; i<1000000; i++) 

{ 

// 号 文件 

write (fd,strl, strlen (str1) ) ; 
j 

IRA E 

close (fd) ; 

return; 


} 





HECE 7 eat E, AY Mhello3.txt ¢ 
件 中 读 20 000 字 节 到 buffer 中 ， 代 码 如 下 : 





void FunC () ; 


void main ( ) 


void FunC (©) 


char buffer[20000]; 
int i,j; 
/打开 文件 


int fd=open ("/mnt/user/user1/user2/hello3.txt", O_RDWR, 
0644) ) ; 


// 读 文件 

read (fd,buffer,sizeof (buffer) ) ; 
/关闭 文件 

close (fd) ; 


return; 


这 三 个 进程 的 执行 顺序 为 : 进程 A 先 执行 ， 之 
后 进程 B 执 行 ， 最 后 进程 C 执 行 。 这 三 个 进程 没有 
RFRA 


1. 系 统 不 断 为 进程 A 向 缓冲 区 写 入 数据 


进程 A 开 始 执行 后 ， 执 行 write 函数 。 假 设 
hellol.txt 文 件 没 有 任何 内 容 ， 所 以 进程 A 只 需 在 绥 
冲 区 中 不 断 申 请 缓冲 块 并 将 指定 的 数据 写 入 绥 冲 块 
就 可 以 了 。 新 申请 缓冲 块 的 前 提 是 ， 该 缓冲 块 空闲 
且 不 脏 。 我 们 假设 现在 系统 已 经 在 缓冲 区 中 的 所 有 
空 有 内 且 不 脏 的 缓冲 块 内 写 满 了 数据 。 图 7-35 显 示 了 
系统 已 经 将 所 有 空间 且 不 脏 的 缓冲 块 写 满 的 状态 。 
接 下 来 ， 我 们 了 吏 要 看 一 下 ， 在 缓冲 区 处 于 图 7-35 所 
示 的 状态 时 ， 再 新 申请 缓冲 块 并 进行 写 入 操作 ， 会 
导致 什么 情况 。 





进程 A 
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“ 写 入 ”请 求 项 


ge 
| 进程 时 间 上 “ 读 出 ”请 求 项 Cg ) 
进程 A me 
”硬盘 


âma [jen [len Bem 
rw] “ 写 入 ”或 “ 读 出 ”请 求 项 ”[r]“ 读 出 ”请 求 项 


图 7-35 系统 不 断 为 进程 A 写 入 数据 
2. 继 续 执行 引发 缓冲 块 数据 需要 同步 


当前 进程 仍然 是 进程 A。 它 提出 的 请 求 ， 系 统 

还 远 没有 完成 ， 还 要 继续 癌 绥 冲 区 写 数据 。 这 就 需 

要 通过 getblk 函 数 在 缓冲 区 中 找到 一 个 空 用 的 缓冲 
块 ， 即 b_count 为 0 的 缓冲 块 。 


执行 代码 如 下 : 


-> 


/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block ) 


tmp=free_list; 

do{ 

if (tmp->b_count) // 找 空间 的 缓冲 块 
continue; 


if (! bh|IBADNESS (tmp) <BADNESS (bh) ) {V/ 在 空闲 的 基础 
权衡 BADNESS 


bh=tmp; 
if (! BADNESS (tmp) ) 


break; 


/*and repeat until we find something good*/ 
while ( (tmp=tmp->b_next_free) ! =free_list) ; 


ee 


但 现在 的 情况 是 ， 缓 冲 区 中 已经 没有 空闲 且 不 
脏 的 缓冲 块 ， 只 有 空闲 且 脏 的 缓冲 世 。 这 就 意味 
看 ， 接 下 来 要 强行 将 缓冲 区 中 的 数据 同步 到 人 硬盘 ， 
DE CE Be aS HH Be eA, Aa EA th 
作 提 供 文 持 ， 执 行 代码 如 下 : 




















/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk Cint dev,int block) 


if (bh->b_count) 
goto repeat; 


while (bh->b_dirt) {//Q052 ig BAY E Seve aD EE, «UL 
THD FAA A & A m EE AE e 


sync _dev (bh->b_dev) ; /立即 同步 


wait _on_buffer (bh) ; 
if (bh->b_count) 


goto repeat; 





3. 将 缓冲 区 中 的 数据 同步 到 人 硬盘 上 


此 时 ，sync_dev() 函数 用 来 将 绥 冲 区 中 的 数 
据 同 步 到 硬盘 上 。 进 入 sync_dev O 函数 后 ， 代 三 
如 下 : 





/代码 路 径 : fs/buffer.c: 


int sync_dev (int dev) 


bh=start_buffer; 

for (i=0; i<NR_BUFFERS; i++, bh++) {// 全 部 都 要 遍历 
if (bh->b_dev! =dev) 

continue; 


wait _on_buffer (bh) ; 








if (bh->b_dev==dev& &bh->b_ dirt) /只 要 设备 号 符合 是 脏 的 ， 
就 同步 


ll _rw_block (WRITE,bh) ; 


ee 





sync_dev 函 数 将 会 过 历 整个 缓冲 区 ， 将 所 
有 “ 脏 ?” 的 缓冲 块 中 的 内 容 全 部 同步 到 人 硬盘 上 。 每 
个 “ 脏 ?” 绥 冲 块 的 同步 步骤 是 这 样 的 : 





先 将 缓冲 块 与 申请 到 的 空间 请 求 项 进行 





绑 定 ， 请 求 项 中 记录 的 内 容 将 作为 数据 同步 的 唯一 
依据 。 


第 二 ， 如 果 硬 盘 此 时 没有 工作 ， 则 下 达 写 盘 命 
令 ， 将 数据 进行 同步 ， 如果 硬盘 正在 工作 ， 则 将 该 
请 求 项 挂 接 在 请 求 项 队列 中 ， 硬 盘 同步 完 数据 并 产 
生 中 断后 ， 中 断 服 务 程 序 会 不 断 地 给 硬盘 发 送 指 
令 ， 以 使 请 求 项 队列 中 各 个 请 求 项 对 应 的 数据 陆续 
同步 到 硬盘 中 。 








sync_dev 函 数 将 会 不 停 地 执行 上 述 工 作 ， 直 到 
无 法 再 申请 到 空闲 请 求 项 为 止 。 


每 个 绥 冲 块 同步 的 过 程 都 是 在 1_rw_block 函 数 
中 完成 的 。 在 此 过 程 中 ， 绥 冲 块 会 被 加 锁 。 加 锁 只 
是 阻止 进程 与 缓冲 块 的 数据 交互 ， 阻 止 系统 上 自身 与 





绥 冲 其 的 数据 交互 ， 但 并 不 阻止 缓冲 块 与 便 盘 之 间 
的 数据 交互 。 在 发 送 同步 指令 之 前 ， 需 要 同步 的 绥 
冲 块 的 脏 标 志 b_dirt 将 会 被 设置 为 0， 以 表示 它 不 再 
是 “ 脏 ” 的 缓冲 块 了 。 








具体 的 执行 路 线 是 ， 进 入 lL_rw_block 函 数 后 会 
调用 make_request 函 数 将 绥 冲 块 与 请 求 项 挂 接 ; 在 
make_request 函 数 中 会 先 将 绥 冲 块 加 锁 ， 并 通过 
add_request 函 数 加 载 请 求 项 ; 在 请 求 项 加 载 完 毕 
后 ， 系 统 将 通过 调用 do_hd_request 消 数 向 人 硬盘 发 送 
写 盘 命令 。do_hd_request 国 数 是 系统 与 硬盘 交互 的 
底层 函数 ， 它 将 根据 请 求 项 的 数据 ， 最 终 实 现 将 指 
定 的 绥 冲 块 的 数据 写 到 指定 的 硬盘 块 上 。 执 行 代 但 
如 下 : 











/代码 路 径 : kernel/blk_drv/ll_rw_blk.c: 


static void make_request (int major,int rw,struct buffer_head * bh) 


ee 


if (rw! =READ& &rw! =WRITE) 
panic ("Bad block dev command,must be R/W/RA/WA") ; 
lock buffer (bh) ; /给 缓冲 块 加 锁 


if ( (rw==WRITE& & ! bh->b_dirt) || (rw==READ & &bh-> 
b_uptodate) ) { 


unlock _buffer (bh) ; 


return; 


req- > buffer=bh->b_data; 
req- > waiting=NULL; 

req- > bh=bh; 

req- >next=NULL; 


add _request (majort+blk_dev,req) ; // 加 载 请 求 项 


} 


static void add_request (struct blk_dev_struct * dev,struct request * 
req) 


if (req->bh) 
req->bh->b_dirt=0; /缓冲 块 同 步 了 ， 就 不 脏 了 


(dev->request_fn) ©) ; // 这 行 代码 对 应 的 束 是 do_hd_request 冰 | 
数 





同步 一 个 缓冲 块 的 情况 如 图 7-36 所 示 。 在 
make_request 函 数 中 把 这 个 绥 冲 块 加 锁 了 ， 而 在 
add_request 函 数 中 已 经 将 该 缓冲 块 的 脏 标志 置 0， 
此 时 这 个 缓冲 块 已 经 成 为 了 空间 且 不 脏 的 缓冲 块 。 


请 读者 将 图 7-36 与 图 7-35 对 比 ， 注 意 该 缓冲 块 的 状 
态 变 化 。 


<p> 
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图 7-36 将 写 请 求 插 入 请 求 项 队列 


sync_dev 国 数 不 断 同步 缓冲 块 ， 最 终结 果 如 图 
7-37 所 示 。 注 意 所 有 留 给 写 入 操作 的 请 求 项 均 已 被 
占用 ， 同 时 与 写 入 请 求 项 对 应 的 绥 冲 块 的 状态 也 已 





被 置 为 空闲 且 不 脏 的 状态 ， 而 便 盘 正在 不 断 对 请 求 
项 进行 处 理 。 
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图 7-37 请 求 项 结构 中 供 写 请 求 使 用 的 空间 已 用 


p> 


ts 


Au 


实现 此 过 程 的 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 


int sync_dev Cint dev) 


int i; 

struct buffer_head * bh; 

bh=start_buffer; 

for (i=0; i<NR_BUFFERS; i++, bh++) {/ 遍 历 所 有 缓冲 块 
if (bh->b_dev! =dev) 

continue; 

wait _on_buffer (bh) ; 

if (bh->b_dev==dev& & bh->b_dirt) 


ll _rw_block (WRITE,bh) ; 


ee 


/代码 路 径 : kernel/blk_drv/ll_rw_blk.c: 
void ll_rw_block (int rw,struct buffer head * bh) 


{ 


unsigned int major; 


if © (major=MAJOR (bh->b_dev) ) >=NR_BLK_DEV]| 
! (blk_dev[major].request_fn) ) { 
printk ("Trying to read nonexistent block-device\n\r") ; 


return; 


make _request (major,rw,bh) ; 
} 


static void make_request (int major,int rw,struct buffer_head * bh) 


ee 


if (rw! =READ& &rw! =WRITE) 

panic ("Bad block dev command,must be R/W/RA/WA") ; 
lock _buffer (bh) ; /这 里 加 锁 了 

add _request (major+blk_dev,req) ; 

} 


static void add_request (struct blk_dev_struct * dev,struct request * 


req- >next=NULL; 
cli © ; 
if (req->bh) 


req->bh->b_dirt=0; // 这 里 把 脏 标志 置 为 0 








请 求 项 结构 中 虽然 还 有 空 闪 的 请 求 项 ， 但 留 
给 “ 写 入 ?操作 的 请 求 项 只 占 请 求 项 总 数 的 203， 对 应 
的 代码 如 下 : 





/代码 路 径 : kernel/blk_drv/ll_rw_blk.c: 
static void make_request (int major,int rw,struct buffer_head * bh) 


{ 


ee 


if (rw==READ ) 
req=request+NR_REQUEST; /所 有 请 求 项 都 可 以 用 来 读 操作 
else 


req=request+ ( (NR_REQUEST*2) /3) ; /只 有 2/3 的 请 求 项 可 以 
用 来 写 操作 


ee 


由 于 现在 这 2/3 的 请 求 项 已 经 全 部 被 占用 了 ， 
所 以 现在 已 经 没有 空闲 的 请 求 项 为 “同步 ?服务 了 ， 
如 图 7-35 中 的 写 入 请 求 项 所 示 。 


4. 进 程 A 由 于 等 待 空 采 请 求 项 而 被 系统 挂 起 


空 内 的 “ 写 盘 ”请 求 项 没有 了 ， 但 sync_dev () 
函数 仍然 会 被 继续 调用 ， 再 次 进入 


make_request O 国 数 后 ， 将 会 执行 如 下 代码 : 





/代码 路 径 : kernel/blk_drv/ll_rw_blk.c: 


static void make_request (int major,int rw,struct buffer_head * bh) 





这 些 代码 的 作用 是 ， 如 果 最 后 也 没有 找到 合适 


的 空闲 请 求 项 ， 就 将 当前 进程 挂 起 。 调 用 

sleep_on () 函数 后 ， 进 程 A 惑 成 为 了 等 行 空 采 请 求 
项 的 进程 ， 被 挂 起 了 。 该 过 程 如 图 7-38 所 示 ， 此 时 
使 盘 仍 然 在 不 断 地 处 理 请 求 项 ， 而 进程 A 己 经 处 于 
挂 起 状态 ， 尽 管 它 还 有 时 间 片 。 
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图 7-38 ”进程 A 被 挂 起 


5. 进 程 B 开 始 执行 


进程 B 开 始 执行 。 它 也 是 一 个 写 盘 进程 。 系 统 
也 要 给 进程 B 申 请 缓冲 块 ， 以 便 其 写 入 数据 。 执 行 
代码 如 下 : 





/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block ) 


tmp=free_list; 

do{ 

if (tmp->b_count) 

continue; 

if (! bh|IBADNESS (tmp) <BADNESS (bh) ) { 
bh=tmp; 

if (! BADNESS (tmp) ) 


break; 


} 


/*and repeat until we find something good*/ 


while ( (tmp=tmp->b_next_free) ! =free_list) ; 





通过 图 7-38 可 以 看 出 ， 现 在 缓冲 区 中 的 各 个 空 

内 缓冲 块 的 状态 有 所 不 同 ， 系 统 就 是 要 在 当前 情况 

下 综合 分 析 所 有 的 空间 缓冲 块 的 状态 ， 从 而 确定 为 
进程 B 申 请 哪个 缓冲 块 。 系 统 是 通过 
BADNESS (tmp) 来 进行 综合 分 析 的 。 


BADNESS (tmp) 的 定义 如 下 : 








#define BADNESS (bh) (© ( (bh) ->b dirt 
<<1) + (bh) ->b_lock) , 








过 前 面 的 分 析 我 们 得 知 ， 它 的 作用 是 将 缓冲 


区 中 所 有 的 缓冲 块 按照 对 进程 执行 更 有 利 的 原则 ， 
分 为 4 个 等 级 ， 从 有 利 到 不 利 依次 为 : 





一 等 ;没有 “ 脏 ”， 且 没有 “加 锁 ” 的 空闲 缓冲 
块 ， 此 等 缓冲 块 的 BADNESS 值 为 0;， 二 等 ; 没 
有 “及 ?”， 且 有 “加 人 锁 ?” 的 空闲 缓冲 块 ， 此 等 缓冲 块 的 
BADNESS 值 为 1; 





=: ASHE, AYA DEN SARE, 
此 等 缓冲 块 的 BADNESS 值 为 2; 


四 等 有 “ 脏 ”， 且 有 “加 锁 ”* 的 空闲 缓冲 块 ， 此 
等 缓冲 块 的 BADNESS 值 为 3。 


BADNESS 值 越 小 ， 则 该 缓冲 块 束 越 便于 使 
H: 越 大 就 越 不 便于 使 用 。 


系统 已 经 将 一 些 缓冲 块 加 锁 ， 并 将 它们 
的 “及 ?标志 设置 为 0 了 ， 于 是 焉 让 它们 的 BADNESS 
值 为 1。 在 目前 的 情况 下 ， 这 已 经 是 最 便于 使 用 的 
绥 冲 块 了 。 因 此 系统 就 为 进程 B 申 请 到 了 一 个 
BADNESS 值 为 1 的 缓冲 块 。 这 个 绥 冲 块 是 加 锁 的 。 
这 意味 着 该 缓冲 块 并 不 能 马上 被 操作 ， 但 总 比 申请 
一 个 脏 的 缓冲 块 好 得 多 。 图 7-39 表 示 了 系统 给 进程 
B 申 请 到 的 缓冲 块 。 
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图 7-39 系统 为 进程 B 申 请 到 绥 冲 块 
6. 进 程 B 也 被 挂 起 


系统 申请 到 的 缓冲 块 是 “加 锁 的 缓冲 块 ， 这 就 
导致 进程 或 系统 不 能 立即 与 该 缓冲 块 进行 数据 交 
互 。 于 是 ， 系 统 会 直接 调用 wait_on_buffer () R 
数 ， 进 程 B 将 会 被 挂 起 ， 如 图 7-40 所 示 。 注 意 ， 此 
时 系统 和 硬盘 还 在 不 断 处 理 请 求 项 。 
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图 7-40 进程 B 也 被 挂 起 


执行 代码 如 下 : 





/代码 路 径 : fs/buffer.c: 


struct buffer head * getblk (int dev,int block ) 


if C! bh) { 

sleep _on ( &buffer_wait) ; 

goto repeat; 

} 

wait _on_buffer (bh) ; /这 里 将 进程 B 挂 起 
if (bh->b_count) 


goto repeat; 


7. 进 程 C 开 始 执 行 并 随后 被 挂 起 


进程 C 开 始 执行 。 它 是 一 个 读 盘 进程 。 系 统 也 
要 为 它 申 请 一 个 缓冲 块 。 从 现在 缓冲 区 的 情况 来 
看 ， 系 统 给 进程 C 和 进程 B 申 请 的 应 该 是 同一 个 绥 
冲 块 。 前 面 提 到 的 缓冲 块 是 加 锁 的 ， 访 缓冲 块 同样 
不 能 被 操作 ， 但 可 以 被 申请 到 ， 于 是 进程 C 也 会 被 
挂 起 。 





进程 C 和 进程 B 现 在 部 因为 在 等 每 同一 个 缓冲 
块 的 解锁 而 被 挂 起 ， 所 以 这 两 个 进程 现在 就 形成 了 
一 个 进程 等 每 队列 。 





到 现在 为 止 ， 实 例 2 中 的 三 个 用 户 进程 都 被 挂 
起 了 ， 于 是 默认 切换 到 进程 0 去 执行 。 它 们 被 挂 起 
的 情况 如 图 7-41 所 示 。 其 中 进程 A 处 在 等 竺 空闲 请 





求 项 的 等 待 队 列 ， 而 进程 B 和 进程 C 处 在 等 竺 同一 
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图 7-41 进程 A、B 和 C 此 时 的 运行 状态 和 所 处 等 
待 队 列 
8. 进 程 A 和 进程 C 均 被 唤醒 


下 面 我 们 将 介绍 这 三 个 用 户 进程 被 唤醒 的 过 
程 。 它 们 被 唤醒 后 ， 系 统 将 继续 根据 缓冲 块 和 请 求 


项 的 各 方面 状况 来 决定 用 户 进 程 将 如 何 执行 。 


一 段 时 间 之 后 ， 硬 盘 完 成 了 请 求 项 交付 的 同步 
工作 ， 产 生硬 盘 中 断 ， 中 断 服 务 程 序 开始 执行 ， 执 
行 代码 如 下 : 





/代码 路 径 : kernel/blk_dev/blk.h: 


extern inline void end_request (int uptodate ) 


extern inline void unlock_buffer (struct buffer head * bh) 


{ 


ee 


bh->b_lock=0; 
wake _up (&bh->b_wait) ; 


} 


ERE A ce FE Ee ON Pe A EN, F 
是 “wake_up (&wait_for_request) ; ”这 行 代码 将 唤 


醒 进 程 A， 如 图 7-42 所 示 。 


进程 B 和 进程 C 构 成 了 一 个 进程 等 待 队列 。 进 
程 C 后 挂 起 ， 要 先 唤醒 ， 如 图 7-42 所 示 。 
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图 7-42 一 个 缓冲 块 数据 同步 完成 后 各 进程 的 状 


太 


JON 


另外 ， 由 于 指定 的 缓冲 块 中 的 数据 已 经 操作 完 
毕 了 ， 所 以 中 断 服 务 程 序 还 会 将 该 缓冲 块 解锁 。 中 
断 服务 程序 会 在 以 上 工作 做 完 后 继续 调用 
do_hd_request 疯 数 ， 如 果 还 有 请 求 项 需要 人 处理 ， 再 
次 给 硬盘 发 送 写 盘 指令 。 很 显然 ， 硬 盘 又 要 开始 进 
行 后 续 的 同步 工作 了 。 从 图 7-42 中 可 以 看 出 ， 人 硬盘 


己 经 在 处 理 下 一 个 请 求 项 ， 而 此 刻 已 经 有 一 个 可 用 


的 写 * 请 求 项 空闲 。 


此 时 进程 C 的 时 间 片 多 于 进程 A 的 时 间 上 请， 所 
以 系统 将 当前 进程 由 进程 0 切换 到 进程 C， 开 始 执行 
后 的 第 一 件 事 就 是 要 唤醒 进程 B， 如 图 7-42 所 示 。 
执行 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block) 


if C! bh) { 
sleep _on ( &buffer_wait) ; 
goto repeat; 


} 


wait _on_buffer (bh) ; /进程 C 唤 醒 后 从 这 里 开始 继续 执行 ， 先 唤 
醒 进 程 B 


if (bh->b_count) 
goto repeat; 


static inline void wait_on_buffer (struct buffer_head * bh) 
{ 

cli © ; 

while (bh->b_lock ) 

sleep _on (&bh->b_wait) ; 

sti (©) ; 


} 


系统 为 进程 C 申 请 到 的 缓冲 块 现在 已 经 被 解锁 
了 ， 可 以 使 用 了 。 系 统 将 先 对 这 个 缓冲 块 进行 设 
置 ， 包 括 将 它 的 引用 计数 设置 为 1， 代 码 如 下 : 





/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block) 


if C! bh) { 

sleep _on ( &buffer_wait) ; 

goto repeat; 

} 

wait __on_buffer (bh) ; /唤醒 进程 B 后 ， 进 程 C 继 续 从 这 里 执行 
if (bh->b_count) 


goto repeat; 


bh->b_count=1; /引用 计数 设置 为 1 
bh->b_dirt=0; 
bh->b_uptodate=0; 


于 是 该 缓冲 块 束 不 再 是 空 帮 绥 冲 块 了。 然后 ， 
在 请 求 项 结构 中 申请 一 个 空闲 请 求 项 与 此 绥 冲 块 绑 
定 ， 并 将 该 缓冲 块 再 次 加 锁 。 但 是 ， 请 求 项 设置 完 
毕 ， 并 不 代表 马上 吏 能 处 理 这 个 请 求 项 。 此 时 便 禹 
正 忙 着 同步 处 理 其 他 请 求 项 ， 现 在 只 能 移 将 “ 读 
盘 ” 请 求 项 插入 请 求 项 队列 中 ， 代 码 如 下 : 











/代码 路 径 : kernel/blk_dev/ll_rw_blk.c: 


static void add_request (struct blk_dev_struct * dev,struct request * 
req) 


for (; tmp->next; tmp=tmp->next) ZRI, AIA BA 
if ( (IN_ORDER (tmp,req) || 


! IN-ORDER (tmp,tmp->next) ) & & 


IN_ORDER (req,tmp->next) ) 

break; 

req->next=tmp->next; //next 用 来 组 建 请 求 项 队列 
tmp->next=req; 

sti () ; 


} 


然后 系统 会 将 进程 C 挂 起 。 


此 时 系统 中 的 进程 状态 如 图 7-43 所 示 ， 其 中 读 
请 求 项 占据 的 是 请 求 项 数组 的 最 后 一 项 ， 并 且 由 请 
求 项 数组 中 的 第 1 项 的 指针 指向 它 。 
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图 7-43 进程 C 将 读 请 求 插 入 请 求 项 队列 后 各 进 
程 的 状态 


9. 进 程 B 切 换 到 进程 A 执行 


进程 C 挂 起 后 ， 进 程 B 的 时 间 厂 显然 比 进程 A 要 
多 ， 所 以 切换 到 进程 B。 系 统 早已 经 为 进程 B 申 请 
了 绥 冲 块 ， 当 时 由 于 这 个 缓冲 块 是 加 锁 的 ， 所 以 进 
程 B 要 挂 起 。 现 在 ， 这 个 缓冲 块 仍 然 是 加 锁 的 ， 所 


以 进程 B 将 再 次 被 挂 起 ， 并 切换 到 进程 A， 如 网 7-44 
FITAR o 
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图 7-44 ”进程 B 挂 起 ， 切 换 到 进程 执行 


当前 进程 是 进程 A。 进 程 A 由 于 同步 缓冲 块 时 
缺少 空闲 请 求 项 才 航 挂 起 ， 所 以 它 农 唤醒 后 ， 系 统 
将 继续 同步 缓冲 块 。 现 在 系统 已 经 有 空 几 的 请 求 项 
用 于 写 盘 了 ， 所 以 系统 将 此 请 求 项 与 即将 要 同步 的 





缓冲 块 绑 定 ， 并 插入 请 求 项 队列 中 ， 之 后 又 没有 空 
闲 的 请 求 项 了 ， 进 程 A 将 再 次 被 挂 起 ， 如 图 7-45 所 


人 小。 
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图 7-45 进程 A 再 次 挂 起 


接 下 来 ， 以 上 步骤 将 会 重复 执行 。 一 方面 ， 只 
要 使 盘 执 行 完 一 次 同步 操作 ， 束 会 释放 一 个 请 求 
项 ， 并 将 其 对 应 的 缓冲 其 解锁 ， 这 些 都 将 导致 等 街 
空 采 请 求 项 或 等 竺 缓冲 芮 解锁 的 进程 家 唤醒 F — 


方面 ， 被 唤醒 的 进程 又 不 断 地 引发 缓冲 区 与 便 盘 之 
间 进 行 数据 交互 ， 从 而 使 这 些 进程 不 断 地 被 挂 起 ， 
如 图 7-46 所 示 。 
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图 7-46 缓冲 块 再 次 同步 完成 时 唤醒 进程 B 


直到 最 后 三 个 进程 全 部 完成 各 和 目的 写 盘 任务 和 
读 盘 任务 ， 如 图 7-47 所 示 。 


理解 多 进程 操作 文件 的 关键 是 深入 理解 缓冲 
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图 7-47 进程 所 有 请 求 均 已 处 理 完毕 





源 代码 ， 可 以 看 出 ， 同 步 代 码 的 设计 多 少 与 这 个 设 
计 指 导 思 想 有 些 偏离 。 


/代码 路 径 : fs/buffer.c: 

int sys_sync (void) 

{ 

int i; 

struct buffer_head * bh; 

sync _inodes () ; /*write out inodes into buffers*/ 
bh=start_buffer; 


for (i=0; i<NR BUFFERS; i++, bh++) {// 遍 历 整 个 缓冲 区 ， 不 
放 过 一 个 缓冲 块 


wait on buffer (bh) : 
if (bh->b_dirt) 


ll _rw_block CWRITE,bh) ; 


return 0; 


int sync_dev (int dev) 


{ 


int i; 
struct buffer_head * bh; 
bh=start_ buffer; 


for (i=0; i<NR BUFFERS; i++, bh++) {// 遍 历 整 个 缓冲 区 ， 不 
放 过 一 个 缓冲 块 


if (bh->b_dev! =dev) 

continue; 

wait _on_buffer (bh) ; 

if (bh->b_dev==dev & &bh->b_dirt) 
ll _rw_block CWRITE,bh) ; 

} 

sync _inodes () ; 

bh=start_buffer; 


for (i=0; i<NR BUFFERS; i++, bh++) {// 遍 历 整 个 缓冲 区 ， 不 
放 过 一 个 缓冲 块 


if (bh->b_dev! =dev) 
continue; 


wait _on_buffer (bh) ; 


if (bh->b_dev==dev& & bh->b_dirt) 
ll _rw_block CWRITE,bh) ; 

} 

return 0; 


} 





以 上 代码 中 没有 考虑 b_count， 不 管 其 是 否 为 
0， 只 要 是 b_dirt 为 1 的 绥 冲 块 ， 痢 要 同步 。 与 尽 可 


能 多 地 共 圣 缓冲 区 、 尺 可 能 少 地 读 写 便 盘 的 设计 条 
旨 不 十 分 相符 。 


7.9 本 章 小 结 


多 进程 操作 文件 的 核心 是 多 进程 对 缓冲 区 的 操 
作 。 缓 冲 区 关联 着 用 户 进程 、 文 件 系统 和 内 存 ， 所 
以 本 章 是 比较 难 的 一 章 。 








本 章 详 细 讲 解 了 缓冲 区 的 作用 及 整体 架构 ， 全 
面 分 析 了 b_dev、b_blocknr、uptodate、dirt...... 的 
作用 ， 并 以 两 个 实例 详细 讲解 了 进程 等 待 队 列 及 多 
进程 操作 文件 。 


深入 理解 这 一 半 的 内 容 ， 对 深入 理解 文件 系 
统 、 绥 冲 区 、 多 进程 的 运行 大 有 益处 。 


第 8 章 ”进程 间 通 信 


前 面 几 章 讲 解 了 在 Linux 0.11 中 不 允许 进程 跨 
越 边界 去 访问 其 他 进程 的 代码 、 数 据 ， 这 是 操作 系 
统 保护 模式 的 核心 内 容 。 











从 实际 应 用 角度 看 ， 进 程 间 往往 需要 协同 工 
作 、 交 互信 息 ， 这 似乎 与 进程 保护 相 违 背 。 如 何 才 
能 既 不 破坏 进程 保护 ， 又 能 实现 进程 间 通 信 的 合理 
要 求 ? Linux 0.11 设 计 了 两 套 机 制 来 为 此 需求 提供 
服务 : 一 套 是 “管道 机 制 ”， 男 一 套 是 “信号 机 制 ”。 
本 章 将 通过 两 个 实际 的 应 用 案例 来 对 这 两 套 机 制 进 


行 详细 的 介绍 。 








8.1 管道 机 制 


为 了 体现 对 进程 的 保护 ， 在 不 跨越 进程 边界 的 
前 提 下 实现 进程 间 通 信 ，Linux 0.11 绕 过 对 进程 边 
界 的 保护 ， 设 计 了 管道 机 制 。 每 个 管道 允许 两 个 进 
程 交 互 数据 ， 一 个 进程 回 管 道中 输入 数据 ， 

道 从 管道 中 输出 数据 ， 如 图 8-1 所 示 。 访 机 制 实现 
了 进程 间 通 信 ， 同 时 又 不 需要 非法 跨越 进程 间 边 
界 。 











操作 系统 在 内 存 中 为 每 个 管道 开辟 一 页 内 存 ， 


一 页 内 存 赋予 了 文件 的 属性 (赋予 文件 属性 的 
理由 ， 将 在 第 9 章 讲 解 ) 。 这 一 页 内 存 由 两 个 进程 
共享 ， 但 不 会 分 配给 任何 进程 ， 只 由 内 核 掌 控 。 











在 Linux 0.11 中 ， 管 道 操 作 分 为 两 部 分 ， 一 部 
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我 们 通过 实例 1 对 这 两 部 分 内 容 进行 介绍 。 实 例 1 代 
码 如 下 : 


#include <stdio.h> 
#include <unistd.h> 
int main () 

{ 

int n,fd[2]; 

pid _t pid; 


int i,j; 


char 
str1[]="ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAI 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 
ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 
ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 
ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABC 
ABCDEABCDEABCDEABCDEABCD"; 

char str2[512]; 

if (pipe (fd) <0) {V/ 创 建 管 道 

printf ("pipe error\n") ; 


return-1; 


if ( (pid=fork © ) <0) { 
printf ("fork error\n") ; 


return-1; 





else if (pid>0) / 父 进程 回 管 道中 写 入 数据 
{ 


close (fd[0]) : 


for (i=0; i<10000; i++) 


write (fd[1], str1, strlen (str1) ) ; 


} 





else{/ 子 进程 从 管道 中 读 取 数据 
close (fd[1]) ; 

for (j=0; j<20000; j++) 

read (fd[0], str2, strlen (str2) ) ; 
} 

return 0; 


} 





实例 1 表现 了 进程 间 共 至 数据 的 情景 父 进程 


把 strl 中 的 数据 写 入 管道 ， 子 进程 从 管道 中 读 出 数 


其 中 str1 中 字符 长 度 为 1024 字 节 ， 即 1KkB。 


8.1.1 Fe eT 





从 技术 上 看 ， 管道 束 是 一 页 内 存 ， 但 进程 要 以 
操作 文件 的 方式 对 其 进行 操作 ， 这 束 要 求 这 页 内 存 
具备 一 些 文件 属性 并 减少 页 属性 。 











具备 一 些 文件 属性 表现 为 ， 创 建 管 道 相 当 于 创 
如 一 个 文件 ， 如 进程 task_struct 中 *filp[20] 和 
file_table[64] 挂 接 、 新 建 1 匠 点、file_table[64] 和 文件 
i 节点 挂 接 等 工作 要 在 创建 管道 过 程 中 完成 ， 最 终 使 
进程 只 要 知道 自己 在 操作 管道 类 型 的 文件 就 可 以 
了 ， 其 他 的 都 不 用 关心 。 














减少 页 属性 表现 为 ， 这 页 内 存 毕 葛 要 当做 一 个 
文件 使 用 ， 比 如 进程 不 能 像 访问 目 己 用 户 空 间 的 数 
据 一 样 访问 它 ， 不 能 映射 到 进程 的 线性 地 址 空间 
内 。 再 如 ， 两 个 进程 操作 这 个 页 面 ， 一 个 读 一 个 
写 ， 也 不 能 产生 页 写 保护 腊 常 把 页 面 为 复制 一 份 ， 
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1 .为 管道 文件 在 file table[64] 中 申请 空闲 项 


创建 文件 都 是 让 当前 进程 《一 个 进程 ) 使 用 ， 
而 管道 文件 就 是 为 了 两 个 进程 ( 读 管 道 进程 和 写 管 
道 进程 ) 的 使 用 而 创建 的 。 实 例 1 中 管道 是 由 
程 ( 写 管道 进程 ) 创建 的 。 父 进程 在 创建 管道 时 ， 
处 处 为 子 进程 〈《 读 管道 进程 ) 做 准备 ， 使 得 于 进程 
HRUE, KAMRE ERNE E E N Be 














2 











父 进程 先 在 fle_table[64] 中 申请 “两 个 空 朵 
项 ， 并 将 这 两 个 空闲 项 的 引用 计数 设置 为 1， 表 示 
它们 被 引用 了 ， 父 子 进程 以 后 操作 管道 文件 可 以 各 
用 一 项 。 执 行 代码 如 下 : 








/代码 路 径 : fs/pipe.c: 

int sys_pipe Cunsigned long * fildes) 
{ 

struct m_inode * inode; 

struct file * f[2]; 

int fd[2]; 

int i,j; 

j=0; 


for (i=0; j<2& &i<NR_FILE; i++) /准备 在 fle_table[64] 中 申请 
两 个 空闲 项 


if C! file_table[i].f_count) /找到 空闲 项 
(f[j++]=i+file_table) ->f_count++; /每 项 引用 计数 为 1 
if: (j=) 

f[0]->f_count=0; 

if <2) 

return-1; 


ecce oo 


为 创建 管道 文件 而 在 他 e_table[64] 中 申请 的 两 
个 空闲 项 如 图 8-2 所 示 。 


0x00900 OxOFFFF OxFFFFF Ox3FFFFF 0xSFFFFF OxFFFFFF 
| | 
= 37 Bi 
AB pape 
file tabte(64] [ 


etree, 


图 8-2 为 创建 管道 文件 而 在 file_table[64] 中 申请 


两 个 空闲 项 


2. 进 程 task_struct 中 的 *filjp[20] 与 file_table[64] 中 
的 表 项 挂 接 


父 进程 task_struct 在 *filp[20] 中 申请 两 个 空闲 





项 ， 分 别 与 前 面 在 和 他 e_table[64] 中 申请 的 两 个 表 项 
相 挂 接 。 这 样 ， 当 前 进程 文件 结构 *filp[20] 中 就 有 
两 个 表 项 与 季 e_table[64] 建 并 关系 。 等 到 它 作 为 父 
进程 创建 子 进程 时 ，*filp[20] 中 的 这 两 个 表 项 就 会 
自然 而 然 地 复制 给 它 的 子 进程 ， 使 之 也 “天 然 地 ”和 
file_table[64] 结 构 中 同样 的 管道 文件 表 项 建立 了 关 
系 ， 执 行 代码 如 下 : 





/代码 路 径 : fs/pipe.c: 


int sys_pipe (unsigned long * fildes) 


ee 


if G==1) 
f[0]->f_count=0; 
if G<2) 


return-1; 


j=0; 


for (i=0; j<2& &i<NR_OPEN; i++) /准备 在 *filp[20] 中 申请 两 
个 空闲 项 


if C! current->filpfi]) {/ 找 到 空闲 项 


current- > filp[fd[j]=iJ=f[j]; //2 5!) Sfile_table[64]F FA i HY PS N28 
项 挂 接 


j++; 

} 

if (j==1) 

current- > filp[fd[0]]=NULL; 

if G<2) { 

f[0]- >f_count=f[1]->f_count=0; 


return-1; 


图 8-3 表 示 了 将 当前 进程 与 管道 文件 建立 关联 
的 效果 。 


oe OxOFFFF OxFFFFF Ox3FFFFF OQxSFFFFF OxFFFFFF 
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p 发 进程 的 task_ struct 
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图 8-3 将 当前 进程 与 管道 文件 建立 联系 


3. 创 建 管道 文件 i 节点 





进程 要 想 具 备 操作 管道 文件 的 能 力 ， 还 要 建立 
管道 文件 i 节点 与 亿 e_table[64] 的 关系 。 为 此 调用 
get_pipe_inode () 函数 ， 先 为 该 管道 文件 在 
inode_table[32] 中 申请 一 个 i 节 点 。 执 行 代码 如 下 : 





/代码 路 径 : fs/pipe.c: 


int sys_pipe Cunsigned long * fildes) 


current- > filp[fd[0]]=NULL; 

if G<2) { 

fL0]- >f_count=f[1]->f_count=0; 

return-1; 

} 

if C! Cinode=get_pipe_inode () ) ) {// 创 建 管道 文件 i 市 点 
current- > filp[fd[0]]= 

current- > filp[fd[1]]=NULL; 

fL0]- >f_count=f[1]->f_count=0; 


return-1; 


ee 
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值得 注意 的 是 ， 此 刻 inode->i_size 字 段 承载 的 不 再 
征文 件 大 小 ， 而 是 内 存 页 面 的 起 始 地 址 。 执 行 代 三 
vu 





/代码 路 径 : fs/inode.c: 

struct m_inode * get_pipe_inode (void) 

{ 

struct m_inode * inode; 

if C! (Cinode=get_empty_inode () ) ) 

return NULL; 

if C! (Cinode->i_size=get_free_page () ) ) {// 申 请 页 面 作为 管道 


inode->i_count=0; 


return NULL; 


} 
inode->i_count=2; /*sum of readers/writers*/ 
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点 就 要 有 引用 计数 。 在 Linux 0.11 中 ， 默 认 操 作 这 
个 管道 文件 的 进程 “能 且 仪 能 "有 两 个 ， 一 个 是 读 进 


程 ， 另 一 个 是 写 进程 ， 所 以 这 里 直接 设置 为 2。 











之 后 ， 让 读 管道 指针 和 写 管道 指针 都 指向 管 
其 实 就 是 这 个 空闲 页 面 ) 的 起 始 位 置 ， 以 便 将 来 
读 写 管道 的 进程 操作 ， 并 将 该 i 节 点 的 属性 设置 
为 “管道 型 i 节 点 ”， 以 此 来 标识 该 i 节 点 的 特殊 性 ， 
即 它 并 不 是 实际 存储 在 硬盘 上 的 文件 的 节点， 只 是 











一 个 内 存 页 面 。 执 行 代 码 如 下 : 





/代码 路 径 : fs/inode.c: 


struct m_inode * get_pipe_inode (void) 


if (! (Cinode->i_size=get_free_page () ) ) { 
inode->i_count=0; 

return NULL; 

} 

inode->i_count=2; /*sum of readers/writers*/// 引 用 计数 设置 为 2 


PIPE HEAD (*inode) =PIPE TAIL (*inode) =0; //PIPE HEAD 
为 写 管道 指针 ，PIPE_TAIL 为 读 管 道 指 针 ， 都 设置 为 0 


inode->i_pipe=1; /设置 管道 文件 属性 


return inode; 





为 管道 文件 申请 i 节点 并 对 其 进行 设置 的 过 程 
如 图 8-4 所 示 。 
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图 8-4 为 管道 文件 创建 节点 


4. 将 管道 文件 i 节点 与 他 e_table[64] 建 并 联系 


管道 文件 i 节点 已 经 设置 完毕 ， 现 在 就 可 以 将 
它 与 fle_table[64] 建 立 关 系 了 ， 具 体 的 操作 是 ， 始 
化 包 e_table[64] 中 的 两 个 空闲 项 ， 让 它们 都 指向 这 
个 管道 文件 节点， 文件 读 写 指针 都 指向 管道 的 起 始 
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项 的 文件 模式 置 为 瑟 ， 这 样 ， 父 进程 已 经 具备 了 操 
作 管道 文件 的 能 力 ， 由 它 创 建 的 子 进程 也 将 天 然 具 
备 操 作 害 道 文件 的 能 力 ， 执 行 代码 如 下 : 











/代码 路 径 : fs/pipe.c: 


int sys_pipe (unsigned long * fildes) 


if (! (Cinode=get_pipe_inode () ) ) { 
current- > filp[fd[0]]= 

current- > filp[fd[1]]=NULL; 

fL0]- >f_count=f[1]->f_count=0; 
return-1; 

} 


f[0]->f_inode=f[1]->f_inode=inode; Vi 节点 和 表 项 挂 接 


f[0]->f_pos=f[1]->f_pos=0; /文件 指针 归 0 
f[0]->f_mode=1; /*read*/// 设 置 为 读 模 式 

f[1]->f_mode=2; /*write*/// 设 置 为 写 模式 
put _fs_long (fd[0], 0+fildes) ; 

put _fs_long (fd[1], 1+fildes) ; 

return 0; 


} 





将 管道 文件 i 节点 与 他 e_table[64] 建 立 联 系 的 结 
果 如 图 8-5 所 示 。 


0x00000 Ox9FFFF OxFFFFF Ox3FFFFF 0x5FFFFF OxFFFFFF 
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图 8-5 ”管道 文件 i 节点 与 和 他 e_table[64] 建 立 联系 


5. 将 管 记 文件 句柄 返 给 用 户 进 程 


现在 将 管 让 文件 的 两 个 句柄 返 给 用 户 进程 ， 即 
返 给 实例 1 代码 中 的 fd[2]。 这 个 数组 有 两 项 ， 每 一 
项 分 列 存 放 一 个 句柄 ， 这 样子 进程 也 将 继承 这 两 个 
文件 句柄 ， 父 子 两 个 进程 就 可 以 通过 不 同 的 文件 句 
本 操作 这 个 害 道 文件 了 。 执 行 代码 如 下 : 





/代码 路 径 : fs/pipe.c: 


int sys_pipe (unsigned long * fildes) 


f[0]->f_inode=f[1]->f_inode=inode; 
f[0]- >f_pos=f[1]->f_pos=0; 


f[0]->f_mode=1; /*read*/ 


f[1]->f_mode=2; /*write*/ 





put _fs_long (fd[0], O+fildes) ; /设置 读 管道 文件 句柄 





put _fs long (fd[1], 1+fildes) ; /设置 写 管道 文件 句柄 
return 0; 


} 





将 官 道 文件 句柄 返 给 用 户 进 程 的 结果 如 图 8-6 
所 示 。 
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图 8-6 将 管道 文件 句柄 返 给 用 户 进 程 


8.1.2 ”管道 的 操作 





Linux 0.11 管 道 操作 要 实 现 的 效果 是 ， 读 管 趾 
进程 执行 时 ， 如 果 沉 道中 有 未 读数 据 ， 残 读 取 数 
据 ， 没 有 未 读数 据 ， 束 挂 起 ， 这 样 丈 不 会 读 取 垃圾 
数据 ， 写 管道 进程 执行 时 ， 如 果 管 道中 有 剩余 空 
间 ， 束 写 入 数据 ， 没 有 剩余 空间 了， 就 挂 起 ， 这 样 
束 不 会 窗 蓄 尚未 读 取 的 数据 。 男 外 ， 官 道 大 小 只 有 
一 个 页 面 ， 所 以 写 或 读 到 页 面 尾 痢 后 ， 读 写 指针 要 
能 够 回 深 到 页 面 首 端 以 便 继续 操 作 。 














回 深 的 实现 代码 如 下 : 


/代码 路 径 : fs/read_write.c: 
int sys_read (unsigned int fd,char * buf,int count) / 读 管 道 指 针 


{ 


SET 


esee oo 


ecce oo 


if (chars>size ) 

chars=size; 

count-=chars; 

read+=chars; 

size=PIPE_TAIL (*inode) ; 

PIPE TAIL (*inode) +=chars; / 读 多 少数 据 ， 指 针 就 偏 移 多 少 


PIPE TAIL (*inode) &= (PAGE. SIZE-1) ; /指针 超过 一 个 页 
C(&=) 操作 可 以 实现 自动 回 滚 


while (chars-->0) 


put _fs_ byte ( ( (char *) inode->i_size) [size++], buf++) ; 


ee 


FE 


int write_pipe (struct m_inode * inode,char * buf,int count) / 写 管道 


if (chars>size ) 

chars=size; 

count-=chars; 

written+=chars ; 

size=PIPE_HEAD (*inode) ; 

PIPE HEAD (*inode) +=chars; /52/> 28, fa tt whe E 2> 


PIPE HEAD (*inode) &= (PAGE SIZE-1) ; /指针 超过 一 个 页 
C&=) 操作 可 以 实现 自动 回 滚 





while (chars-->0) 


( (char *) inode->i_size) [size++]=get_fs_byte (buf++) ; 


ee 








在 不 断 回 深 操 作 的 情况 下 ， 控 制 写 入 和 读 取 ， 
以 及 将 进程 唤醒 和 挂 起 的 代码 如 下 : 








/代码 路 径 : include/linux/fs.h: 
#define PIPE HEAD (inode) ( (inode) .i zone[0]) 
#define PIPE TAIL (inode) ( (inode) .i_zone[1]) 


#define PIPE_SIZE (inode) ( (PIPE_HEAD (inode) - 
PIPE_TAIL (inode) ) & (PAGE_SIZE-1) ) 


/代码 路 径 : fs/read_write.c: 


int sys_read (unsigned int fd,char * buf,int count) / 读 管 道 指 针 


ee 


while Ccount>0) { 


while (! (size=PIPE_SIZE (*inode) ) ) {/ 读 写 指针 重合 时 ， 就 
视 为 把 管道 中 数据 都 读 完 了 


wake up (&inode->i_wait) ; /管道 数据 都 读 完 了 ， 唤 醒 写 管道 
进程 


if (inode->i_count! =2) /*are there any writers?*/ 


return read; 


sleep_on (&inode->i_wait) ; / 没 数据 读 了 ， 将 读 管道 进程 挂 起 


chars=PAGE_SIZE-PIPE_TAIL (*inode) ; 
if (chars > count) 

chars=count; 

if (chars>size ) 

chars=size; 





wake _up (&inode->i_wait) ; // 读 取 了 数据 ， 意 味 着 管道 有 剩余 
空间 了 ， 唤 醒 写 管道 进程 


return read; 


} 


int write_pipe (struct m_inode * inode,char * buf,int count) // 写 管道 


ee 


while Ccount>0) { 


while (! (size= (PAGE. SIZE-1) -PIPE SIZE (*inode) ) ) {// 写 
指针 最 多 能 写 入 4095 t 字 节 的 数据 ， 就 视 为 把 管道 写 满 了 “一 个 页 面 大 
小 为 4096 字 节 ) 





wake _up (&inode->i_wait) ; /管道 写 满 了 ， 有 数据 了 ， 唤 醒 读 
管道 进程 


if Cinode->i_count! =2) {/*no readers*/ 
current->signall= (1<< (SIGPIPE-1) ) ; 
return written?written: -1; 

} 


sleep _on ( &inode->i_wait) ; / 没 剩 余 空间 了 ， 将 写 管 道 进程 挂 


chars=PAGE SIZE-PIPE HEAD (*inode) ; 
if (chars >œ count) 
chars=count; 


if (chars> size) 


chars=size; 





wake -up (&inode->i wait) ; // 写 入 了 数据 ， 意 味 着 管道 有 数据 





return written; 


} 


4PIPMATS SAAR SiN, Seis 
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管道 进程 挂 起 。Linux 0.114 sys_write © 函数 设计 
为 ， 与 
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下 面 我 们 通过 实例 1， 介 绍 管道 操作 的 过 程 。 


1. 读 省 道 进程 开始 操作 管 这 文件 








实例 1 中 父 进程 创建 完 管 道 后 ， 开 始 创建 子 进 





程 ， 即 读 管道 进程 。 创 建 完毕 后 ， 我 们 不 妨 假设 此 
时 系统 中 只 有 读 管 道 和 写 管道 两 个 进程 处 于 就 绪 
态 ， 而 且 读 管道 进程 先 执行 ， 执 行 实例 1 

“read (fd[0], str2, strlen (str2) ) ”这 行 源 代 
码 。read O 函数 会 映射 到 系统 调用 函数 

sys read O 中 去 执行 ， 并 最 终 执行 到 

read_pipe O 函数 中 。 由 于 此 时 管道 内 没有 任何 数 
据 ， 所 以 此 时 系统 会 将 读 管道 进程 挂 起 ， 然 后 切换 
到 写 管道 进程 中 去 执行 。 执 行 代码 如 下 : 





// 代 码 路 径 : fs/read_write.c: 


int sys_read (unsigned int fd,char * buf,int count) 


ee 


verify _area (buf,count) ; 


inode=file->f_inode; 


if (inode->i_pipe) 


return (file->f_mode&1) ?read pipe (inode,buf,count) : -EIO; // 
调用 读 管道 函数 


if (S_ISCHR (inode->i mode) ) 


return rw_char (READ, inode->i_zone[0], buf,count, &file-> 
f_pos) ; 


/代码 路 径 : fs/pipe.c: 
int read_pipe (struct m_inode * inode,char * buf,int count) 


// 读 管道 函数 


int chars,size,read=0; 
while Ccount>0) { 


while (! (size=PIPE_SIZE (*inode) ) ) {// 管 道中 没有 数据 ， 进 
入 此 循环 执行 


wake up (&inode->i_wait) ; 


if Cinode->i_count! =2) /*are there any writers?*/ 


return read; 


sleep_on (&inode->i_wait) ; /将 读 管 道 进程 挂 起 ， 切 换 到 写 管 
道 进 程 (已 经 假设 系统 中 只 有 操作 管 道 的 两 个 进程 处 于 就 绪 态 ) 


} 

chars=PAGE_SIZE-PIPE_TAIL (*inode) ; 
if (chars > count) 

chars=count; 





此 时 管道 内 没有 任何 数据 ， 读 管道 进程 被 挂 
起 ， 进 程 的 状态 如 图 8-7 所 示 。 
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图 8-7 进程 开始 操作 宣道 一 一 挂 起 读 进 程 
2. 写 管道 进程 问 管 道中 写 入 数据 


写 管 道 进程 开始 执行 ， 它 会 将 实例 1 中 的 str1 数 
组 中 指定 的 1024 字 节 的 数据 循环 地 写 入 管道 内 ， 即 
执行 “write (fd[1]，strl1，strlen (str1) ) ”这 行 源 代 
码 。write O 函数 会 映射 到 系统 调用 函数 
sys_write O 中 去 执行 ， 并 最 终 执行 到 








write_pipe O Rath. Sista, PIP MoAA A 
据 可 以 读 出 ， 唤 醒 读 管 趾 进程 《唤醒 了 读 管 道 进程 
并 不 等 于 读 管道 进程 就 立即 执行 ) ， 此 次 写 管 道 操 
作 就 执行 完毕 。 执 行 代码 如 下 : 





/代码 路 径 : fs/read_write.c: 


int sys_write (unsigned int fd,char * buf,int count) 


if (! count) 

return 0; 

inode=file- >f_inode; 
if (inode->i_pipe) 


Le cie >f_mode&2) ?write_pipe (inode,buf,count) : -EIO; // 
Val FS 5 re PAL 


if (S_ISCHR Cinode->i_mode) ) 


return rw_char (WRITE, inode->i_zone[0], buf,count, & file-> 


ee 


/代码 路 径 : fs/pipe.c: 


int write_pipe (struct m_inode * inode,char * buf,int count) // 写 管道 


PK BL 


int chars,size,written=0; 

while (count>0) { 

size=PIPE_HEAD (*inode) ; 

PIPE HEAD (*inode) +=chars; 

PIPE HEAD (*inode) &= (PAGE SIZE-1) ; 


while (chars-->0) 


( (char *) inode->i_size) [size++]=get_fs_byte (buf++) ; 


道中 写 入 数据 


wake _up (&inode->i_wait) ; /唤醒 读 管道 进程 


// 回 管 
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返回 用 户 空间 。 通 过 实例 1 中 “for G=0; i<10000; 





i++) ”这 行 代码 我 们 得 知 ， 写 管道 要 操作 10 000 
次 ， 而 写 管道 进程 的 时 间 片 还 没有 用 完 ， 它 还 要 继 


问 管道 中 不 断 写 入 数据 的 过 程 如 图 8-9 所 示 。 
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图 8-9 与 党 站 进程 不 断 癌 管道 中 写 入 数据 


4. 写 管道 进程 已 将 管道 空间 写 满 


不 妨 假 设 在 写 管道 进程 工作 的 过 程 中 ， 发 生 了 
时 钟 中 断 ， 削 减 了 它 的 时 间 户 ， 只 要 时 间 户 不 被 前 
减 为 0， 它 束 会 继续 执行 。 对 应 代码 如 下 : 








// 代 人 码 路 径 : kernel/sched.c: 


void do_timer (long cpl) /时 钟 中 断 处 理 函 数 


if (next_timer) { 

next _timer->jiffies--; 

while (next_timer& &next_timer->jiffies<=0) { 
void (*fn) (void) ; 

fn=next_timer-> fn; 

next _timer->fn=NULL; 


next _timer=next_timer-> next; 


if Ccurrent_DOR& 0xf0 ) 

do _floppy_timer ©) ; 

if ( (-~-current->counter) >0) retum; /时 间 片 不 为 0， 直 接 返回 
current- œ counter=0; 

if ©! cpl) return; 

schedule () ; 


} 








图 8-10 的 下 方 表示 了 发 生 时 钟 中 断后 对 写 管道 
进程 的 影 啊 。 
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直到 写 管道 进程 把 管道 写 满 为 止 〈 写 入 4095 字 
PRAWI) 。 在 写 入 的 过 程 中 ， 写 管道 指针 一 直 
指向 数据 的 写 入 位 置 ， 一 直 向 管道 尾 端 移动 。 





5. 写 管道 进程 挂 起 





Swi, Ae ES PEE, a) 


PR BIE EEE BUT © TAT RAS F: 





/代码 路 径 : fs/pipe.c: 

int write_pipe (struct m_inode * inode,char * buf,int count ) 
{ 

int chars,size,written=0; 

while (count>0) { 


while (! (size= (PAGE. SIZE-1) -PIPE SIZE (*inode) ) ) {// 写 
4095 字 节 就 算 满 了 ， 此 条 件 为 真 ， 进 入 while 执 行 


wake _up (&inode->i_wait) ; 

if (inode->i count! =2) {/*no readers*/ 
current->signall= (1<< (SIGPIPE-1) ) ; 
return written?written: -1; 

} 


sleep _on ( &inode->i_wait) ; 道 进 程 挂 起 ， 切 换 到 读 管 道 
进程 去 执行 





写 管道 进程 挂 起 并 切换 到 读 管道 进程 的 过 程 如 
图 8-11 所 示 。 
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图 8-11 写 管道 进程 挂 起 并 唤醒 读 管道 进程 


6. 读 管道 进程 从 管道 中 该 出 数据 


读 管道 进程 将 继续 在 read_pipe © 函数 中 执 
行 。 根 据 实例 1 的 代码 ， 此 次 执行 将 会 把 管道 中 512 
字 节 的 数据 读 入 读 管 道 进程 的 用 户 空 间 内 。 执 行 代 
人 码 如 下 : 





/代码 路 径 : fs/pipe.c: 


int read_pipe (struct m_inode * inode,char * buf,int count) 


ee 


ee 


chars=PAGE_SIZE-PIPE TAIL (*inode) ; 
if (chars > count) 
chars=count; 


if (chars> size) 


chars=size; 

count-=chars; 

read+=chars; 

size=PIPE_TAIL (*inode) ; 

PIPE TAIL (*inode) +=chars; // 读 多 少 ， 指 针 移动 多 少 
PIPE _TAIL (*inode) &= (PAGE SIZE-1) ; 

while (chars-->0) 


put _fs byte ( ( (char*) inode->i_size) [size++], buf++) ; // 读 


数据 的 执行 代码 





谈 出 了 数据 ， 意 味 者 有 了 剩余 空间 ， 系 统 此 时 
会 唤醒 写 管道 进程 。 执 行 代 码 如 下 : 





/代码 路 径 : fs/pipe.c: 


int read_pipe (struct m_inode * inode,char * buf, int count) 


size=PIPE_TAIL (*inode) ; 

PIPE TAIL (*inode) +=chars; 

PIPE TAIL (*inode) &= (PAGE_SIZE-1) ; 

while (chars-->0) 

put _fs byte ( ( (char *) inode->i_size) [size++], buf++) ; 
} 


wake up (&inode->i_wait) ; /唤醒 写 管 道 进 程 





谈 管 道 进 程 从 管道 中 该 出 数据 的 过 程 如 网 8-12 
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7. 读 管道 进程 继续 执行 ， 不 断 从 管 过 中 读 出 数 
据 


当前 进程 还 是 读 管 道 进程 ， 读 一 次 管道 之 后 将 
返回 用 户 空 间 。 通 过 实例 1 中 “for (j=0; j<20000; 
j++) ”这 行 代码 我 们 得 知 ， 读 管道 要 操作 20 000 
次 ， 而 且 读 管道 进程 的 时 间 片 还 没有 用 完 ， 所 以 还 


要 继续 执行 读 管 道 操作 。 读 管道 进程 不 断 从 管道 中 
读 出 数据 的 过 程 如 图 8-13 所 示 。 
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图 8-13 读 管道 进程 不 断 从 管道 读 出 数据 


8. 读 常 道 进程 执行 中 发 生 时 钟 中 断 


假设 在 读 管 道 进程 工作 的 过 程 中 ， 也 发 生 时 钟 
PE, Bld SESE TAD A, REANIM AO, Eat 


继续 执行 。 执 行 代码 如 下 : 





/代码 路 径 :， kernel/schde.c: 


void do_timer (long cpl) 


if (next_timer) { 

next _timer->jiffies--; 

while (next_timer& &next_timer->jiffies<=0) { 
void (*fn) (void) ; 

fn=next_timer-> fn; 

next _timer->fn=NULL; 

next _timer=next_timer-> next; 


(fn) O; 


if (current DOR & 0xf0) 

do _floppy_timer () ; 

if ( (-current->counter) >0) retum; /时 间 片 不 为 0， 直 接 返回 
current- > counter=0; 

if (! cpl) return; 

schedule () ; 


} 





读 管道 进程 执行 过 程 中 发 生 时 钟 中 断 的 处 理 方 
法 如 图 8-14 所 示 。 注 意图 中 读 管 道 进程 的 进程 条 ， 
它 的 时 间 片 已 经 削减 。 
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读 管 道 进程 执行 过 程 中 又 一 次 发 生 时 钟 中 断 
Mio EEEN HANO, CREERSE 
党 道 进程 去 执行 。 执 行 代 码 如 下 : 


/代码 路 径 : kernel/schde.c: 


void do_timer (long cpl) 


if Ccurrent_DOR & Oxf0) 

do _floppy_timer ©) ; 

if ( (-current->counter) >0) return; /时 间 片 为 0 
current- > counter=0; 

if C! cpl) return; 

schedule () ; /进程 切换 


} 





对 于 时 钟 中 断 的 处 理 如 图 8-15 所 示 。 图 中 代表 
读 管 道 进程 的 进程 条 的 时 间 户 已 经 削减 为 0。 
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图 8-15 读 进 程 执 行 过 程 中 发 生 时 钟 中 断 


值得 注意 的 是 ， 两 次 时 钟 中 断 的 产生 并 不 会 影 
啊 到 数据 的 写 入 或 读 出 ， 根 本 原因 是 数据 的 写 入 和 
读 出 都 是 在 0 特权 级 的 内 核 代码 中 进行 的 ， 完 全 由 
系统 控制 ， 只 会 削减 时 间 刻 ， 不 会 影响 数据 操作 的 
执行 。 


10. 读 管道 进程 切换 到 写 定 道 进程 执行 


ie we 
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。 接 下 来 。 写 管道 
道中 写 入 数据 ， 
过 程 如 图 8-16 所 示 。 
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图 8-16 ” 写 管道 进程 继续 写 入 数据 
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管道 中 再 次 被 写 满 后 ， 写 管道 进程 又 要 被 系统 
挂 起 ， 之 后 就 切换 到 读 管道 进程 去 执行 。Linux 
0.11 重 新 分 配 时 间 片 的 原则 是 当 所 有 处 于 就 绪 态 的 
进程 时 间 片 均 为 0 时 ， 分 配 时 间 片 。 由 于 此 时 读 管 
道 进程 是 唯一 处 于 就 绪 态 的 进程 ， 并 且 它 的 时 间 片 
也 用 完了 ， 重 新 给 它们 分 配 时 间 片 ， 执 行 代码 如 
F: 





/代码 路 径 :， kernel/schde.c: 


void schedule (void) 


while (1) { 


c=-1; 


next=0; 

i=NR_TASKS; 

p=&task[NR_TASKS]; 

while (--i) { 

if (C! *--p) 

continue; 

if ( (*p) ->state==TASK_RUNNING& & (*p) ->counter>c) 


c= (*p) ->counter,next=i; 


if Cc) break; 
for (p=& LAST_TASK; p> &FIRST_TASK; --p) /分 配 时 间 片 
if (*p) 

(*p) ->counter= ( (*p) ->counter>>1) + 


(*p) ->priority; 


switch to (next) ; 


然后 ， 读 管道 进程 继续 执行 ， 读 取 一 部 分 数据 
的 过 程 如 图 8-17 所 示 。 
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谈 管 道 进 程 开 始 执行 后 ， 将 继续 把 各 道中 的 数 


gat HRES E Reina, Heke ee fa et 
MEE PE vi AS I) SE EL itd» PF in Re SE 
道中 的 内 容 ， 直 全 将 数据 彻底 读 完 ， 两 个 指针 重 
合 。 执 行 代码 如 下 : 








/代码 路 径 : fs/pipe.c: 


int read_pipe (struct m_inode * inode,char * buf,int count) 


while Ccount>0) { 


while (! (size=PIPE_SIZE (*inode) ) ) {// 指 针 重 合 ， 证 明 数 据 
读 完了 


wake _up (&inode->i_wait) ; /唤醒 写 管道 进程 
if (inode->i count! =2) /*are there any writers?*/ 
return read; 


sleep _on( &inode->i_wait) ; /将 读 管道 进程 挂 起 ， 切 换 到 写 管 
道 进 程 执行 


chars=PAGE_SIZE-PIPE_TAIL (*inode) ; 
if (chars > count) 

chars=count; 

if (chars>size ) 

chars=size; 

count-=chars; 

read+=chars; 

size=PIPE_TAIL (*inode) ; 

PIPE TAIL (*inode) +=chars; 

PIPE _TAIL (*inode) &= (PAGE_SIZE-1) ; 
while (chars-->0) 


put _fs_ byte ( ( (char*) inode->i_size) [size++], buf++) ; // 读 


取 数 据 


ee 





该 过 程 如 图 8-18 所 示 。 
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从 前 面 对 管 道 操作 的 介绍 中 不 难 及 现 ， 两 个 进 
程 占 用 一 个 管 站 的 标志 是 ， 在 fie_table[64] 中 两 个 
进程 分 列 占据 一 个 党 道 文件 的 仙 e 项 ， 残 可 以 对 浓 
道 进行 操作 。 


如 果 进 程 A 创 建 两 个 管道 ， 并 创建 进程 B,A、B 
两 个 进程 就 可 以 利用 这 两 个 管道 进行 逆 同 的 数据 交 
互 ， 情 景 如 图 8-19 所 示 。 
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图 8-19 两 个 进程 使 用 管道 刘 问 数据 交互 


如 果 进 程 A 创 建 六 个 管道 ， 并 创建 进程 B 和 进 
程 C,A、B、C 三 个 进程 束 可 以 利用 这 六 个 管道 进行 
两 两 道 向 的 数据 交互 ， 情 景 如 图 8-20 所 示 。 
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RI 8-20 三 个 进程 使 用 管道 两 两 逆 癌 数据 交互 


只 要 进程 的 总 量 不 超过 64、 进 程 占据 的 file 项 
的 数量 不 超过 file_ table[64] 的 承载 力 ， 就 可 以 构建 
出 任意 复杂 的 管道 组 合 操作 结构 。 





8.2 ”信号 机 制 


言 号 机 制 是 Linux 0.11 为 进程 提供 的 一 套 “ 局 部 
的 类 中 断 机 制 ?， 即 在 进程 执行 的 过 程 中 ， 如 果 系 
IMA TERE RAE fas. RUIN TT rade EY 
执行 ， 转 而 去 执行 该 进程 的 信号 处 理 程序 ， 处 理 完 
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本 市 将 分 两 部 分 对 信号 机 制 进行 详细 的 介绍 。 


第 一 部 分 : 通过 实例 2 的 执行 过 程 ， 对 系统 以 
及 进程 处 理 信 号 的 过 程 进行 详细 的 介绍 。 


第 二 部 分 : 系统 通过 对 信号 的 分 析 来 改变 进程 
的 执行 状态 。 


这 是 一 个 关于 “信号 的 发 送 、 接 收 以 及 处 理 ” 的 
实例 。 我 们 将 以 此 来 介绍 对 系统 以 及 进程 处 理 信和 号 
的 过 程 。 


有 两 个 用 户 进 程 。 一 个 进程 用 来 接收 及 处 理 信 
写 ， 名 字 岂 做 processsig。 它 所 对 应 的 程序 源 代码 如 
下 : 





#include <stdio.h> 

#include<signal.h> 

void sig_usr (int signo) /处 理 信号 的 函数 
if (signo==SIGUSRI1 ) 

printf ("received SIGUSRI1\n") ; 


else 


printf ("received%d\n", signo) ; 


signal (SIGUSRI, sig_usr) ; /重新 设置 processsig 进 程 的 信号 处 理 
函数 指针 ， 以 便 下 次 使 用 


} 
int main (int argc,char ** argv) 
{ 


signal (SIGUSR1, sig_usr) ; // 挂 接 processsig 进 程 的 信号 处 理 函 数 
Hat 


for C; ) 
pause () ; 
return 0; 


} 





FS EER GEA SS, FU flitsendsig . 
它 所 对 应 的 源 代码 如 下 : 








#include<stdio.h> 


int main (int argc,char ** argv) 


int pid,ret,signo; 
int i; 

if (argc! =3) 

{ 

printf ("Usage: sensig<signo><pid>\n") ; 


return-1; 


signo=atoi (argv[1]) ; 

pid=atoi Cargv[2]) ; 

ret=kill (pidsigno) ; /这 里 发 送信 和 号 
for (i=0; i<1000000; i++) 

if Cret! =0) 

printf ("send signal error\n") ; 


return 0; 


系统 需要 具备 以 下 三 个 功能 ， 以 文 持 信号 机 
制 |。 


1. 系 统 要 文 持 进程 对 信号 的 发 送 和 接收 


系统 在 每 个 进程 task_struct 中 都 设置 了 用 以 接 
收 信 和 号 的 数据 成 员 signal 〈 信 号 位 图 ) ， 每 个 进程 
接收 到 的 信号 就 “ 控 位 ”存储 在 这 个 数据 结构 中 。 系 
统 文 持 两 种 方式 给 进程 及 送信 号 : 一 种 方式 是 一 个 
进程 通过 调用 特定 的 库 函 数 给 劝 一 个 进程 用 送信 

一 种 方式 是 用 户 通过 键盘 输入 信息 产生 键盘 
中 断后 ， 中 断 服 务 程序 给 进程 用 送信 号 。 这 两 种 方 
陈 的 信号 发 送 原 理 是 相同 的 ， 都 是 通过 设置 信号 位 
图 (signal) 上 的 信号 位 来 实现 的 。 











本 实例 将 结合 第 一 种 方式 ， 即 一 个 进程 给 另 一 


个 进程 及 送信 号 来 展现 系统 对 信号 的 发 送 和 接收 。 


2. 系 统 要 能 够 及 时 检测 到 进程 接收 到 的 信和 号 


系统 通过 两 种 方式 来 检测 进程 是 舍 接 收 到 信 
号 : 一 种 方式 是 在 系统 调用 返回 之 前 检测 当前 进程 
是否 接收 到 信号 ;万 一 种 方式 是 时 钟 中 断 产 生 后 ， 
其 中 断 服务 程序 执行 结束 之 前 ， 检 测 当 前 进程 是 否 
接收 到 信号 。 





这 两 种 信和 号 检测 方式 大 体 类 似 。 本 实例 将 结合 
第 一 种 方式 来 展现 系统 对 进程 接收 到 的 信号 的 检 


‘ly 





3. 系 统 要 支持 进程 对 信号 进行 处 理 


系统 要 能 够 保证 ， 当 用 户 进 程 不 需要 处 理 信和 号 


时 ， 信 号 处 理 函 数 完 全 不 参与 用 户 进程 的 执行 ， 当 
用 户 进程 需要 处 理 信 号 时 ， 进 程 的 程序 将 暂时 俘 止 
执行 ， 转 而 去 执行 信号 处 理 函 数 ， 答 信号 处 理 函 数 
执行 完毕 后 ， 进 程 程序 将 从 “ 暂 集 的 现场 处 ”继续 执 


一 … 


{TJ o 
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程 进行 绑 定 “系统 对 信和 号 的 预 处 理 ” 和 “信和 号 处 理 
完毕 后 进程 现场 的 恢复 ”这 三 方面 入 手 来 展现 系统 
征 如 何 做 到 这 些 的 。 





下 面 我 们 就 来 介绍 这 两 个 进程 都 是 如 何 开始 运 
行 的 。 现 在 用 户 处 于 shell 界 面 下 。 
第 一 步 : 输入 如 下 指令 ， 运 行 processsig 进 程 的 


程序 。 


[/usr/root]#./processsig & 
二 160>// 这 里 可 知 processsig 进 程 的 进程 号 是 160 


[/usr/root |# 


第 二 步 : 输入 如 下 指令 ， 运 行 sendsig 进 程 的 程 


序 ， 发 送信 号 SIGUSR1 给 processsig 进 程 。 





[/usr/root]#./sendsig 10 160/10 代 表 SIGUSR1 这 个 信号 ，160 是 
processsig 进 程 的 进程 号 


received SIGUSR1 


[/usr/root|# 


现在 ， 我 们 开始 分 别 介绍 这 两 个 进程 的 执行 情 
况 。processsig 进 程 是 先 开 始 执行 的 ， 我 们 先 来 介绍 
它 的 执行 情况 。 


8.2.1 信号 的 使 用 


1.processsig 进 程 开 始 执行 


processsig 进 程 开 始 执行 ， 要 为 接收 信号 做 准 
备 ， 有 其 体 表 现 为 ， 指 定 对 哪 种 信号 进行 什么 样 的 处 
理 。 为 此 ， 进 入 main《〈) 函数 后 ， 先 要 将 用 户 目 定 
义 的 信号 处 理 函 数 与 processsig 进 程 绑 定 。 用 户 程 序 
是 通过 调用 signal〈) 函数 来 实现 这 个 绑 定 的 。 

函数 是 库 函 数 ， 它 执行 后 会 产生 软 中 汤 int0x80， 
并 映射 到 sys_signal O 这 个 系统 调用 函数 去 执行 
sys_signal O 函数 的 功能 是 将 用 户 自 定义 的 信号 处 
理 函 数 sig_usr O 与 processsig 进 程 绑 定 。 这 意味 
AR» D 就 调 
用 Sig_usr 函 数 来 处 理 该 信号 ， 绑 定 工 作 就 是 通过 议 
ZOR TERR HS o 














进入 sys_signal〈) 函数 后 ， 系 统 先 要 在 绑 定 之 





前 检测 用 户 指 定 的 信号 是 否 符 合 规 定 。 由 于 Linux 

0.11 中 只 能 默认 处 理 32 种 信号 ， 而 且 默 认 忽 略 

SIGKILL 这 个 信号 ， 所 以 只 要 用 户 给 出 的 信号 不 符 
这 些 要 求 ， 系 统 将 不 能 处 理 。 执 行 代码 如 下 : 





/代码 路 径 : kernel/signal.c: 

int sys_signal (int signum,long handler,long restorer ) 
{ 

struct sigaction tmp; 


if (signum<1||signum>32||signum==SIGKILL) /经 检测 得 知 ， 信 
号 符合 规定 


return-1; 





检测 完毕 后 ， 开 始 对 processsig 进 程 task_struct 


中 的 Sigaction[32] 进 行 设置 。 访 管理 结构 有 32 个 成 
员 ， 正 好 对 应 默认 的 32 种 信号 。sigaction[32] 中 每 一 
个 成 员 都 会 为 每 一 种 信号 的 处 理 提供 一 套 服务 。 


执行 代码 如 下 : 





/代码 路 径 : kernel/signal.c: 


int sys_signal (int signum,long handler,long restorer) 


if (signum<1||signum > 32||signum==SIGKILL ) 


return-1; 

tmp.sa_handler= (void ( *) (int) ) handler; /此 时 handler 参 数 就 
是 processsig 进 程 程序 中 "signal (SIGUSR1, sig_usr) "这 行 代码 中 sig_usr 
函数 的 地 址 ， 这 个 绑 定 使 得 只 要 将 来 进程 接收 到 信号 ， 融 由 sig_usr 这 个 
函数 来 处 理 


tmp.sa_mask=0; 


tmp.sa_flags=SA_ONESHOTISA_NOMASK: 


tmp.sa_restorer= (void (*) (void) ) restorer; /这 里 绑 定 现场 恢 


复 函 数 
handler= (long) current->sigaction[signum-1].sa_handler; 


current->sigaction[signum-1]=tmp; /sigaction[signum-1] 这 一 项 将 为 
SIGUSR1 信 号 提供 服务 


return handler; 


} 





此 设置 如 图 8-21 所 示 。 


| |handler( 信 号 处 理 函 数 地 址 ) 
| |restorer( 现 场 恢复 函数 地 址 ) 


signum-1 项 





sigaction[32] 


图 8-21 设置 用 户 进 程 信 号 处 理 图 数 地 址 


值得 注意 的 是 ， 图 8-21 中 的 restorer ©) KAŽE 
在 sys_signal O 函数 中 绑 定 了 。restorer © 函数 的 
功能 也 很 重要 ， 后 面 我 们 会 详细 介绍 。 


processsig 进 程 的 状态 及 其 代码 在 内 存 中 的 情况 
如 图 8-22 所 示 ， 此 时 processsig 进 程 处 于 就 绪 态 。 
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| 就 绪 态 


图 8-22 processsig 进 程 及 其 代码 在 内 存 中 的 情况 





2.processsig 进 程 进 入 可 中 上 断 等 待 状态 


在 processsig 进 程 的 程序 中 ， 为 了 体现 信号 对 进 
程 执 行 状态 的 影响 ， 我 们 特意 调用 了 pause ©) K 
数 。 这 个 函数 最 终 将 导致 该 进程 被 设 置 为 “可 中 断 








等 待 状态 ”。 等 到 该 进程 接收 到 信号 后 ， 它 的 状态 
将 由 “可 中 断 等 待 状态 ”转换 为 加 绪 态 ”。 





执行 完 signal ©) KUE, FR Elprocesssigi# 
程 的 用 户 空 间 继 续 执 行 ， 调 用 pause O 函数 。 这 个 
铀 数 会 映射 到 系统 调用 函数 sys_pause O 中 。 执 行 
代码 如 下 : 





/代码 路 径 : kernel/sched.c: 
int sys_pause (void) 


{ 


current->state=TASK_INTERRUPTIBLE; /将 processsig 进 程 设 置 为 
可 中 断 等 待 状态 


schedule © ; /切换 进程 
return 0; 


} 





processsig 进 程 将 被 设置 为 可 中 断 等 待 状态 ， 如 
图 8-23 所 示 。 
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Al 8-23 processsig 进 程 进入 可 中 断 等 竺 状态 





3.sendsig 进 程 开始 执行 并 同 processsig 进 程 发 信 
= 

processsigi#t ft 4 I FE, sendsigi# FEIT - 
sendsigitt Fz it ZA processsig tE Rik (as, MARY) 
换 到 processsig 进 程 去 执行 。 


sendsig 进 程 会 先 执 行 “ret=kill (pid,signo) ”这 
一 行 代码 ， 其 中 kil 是 个 库 函 数 ， 最 终 会 映射 到 
sys_kill 函 数 中 去 执行 ， 并 将 参照 “102 和 ?“160” 这 两 
个 参数 给 processsig 进 程 发 送 SIGUSR1 信 和 号， 执行 代 
码 如 下 : 





/代码 路 径 : kernel/exit.c: 


int sys_kill (int pid,int sig ) 


ee 


if C! pid) while (--p>&FIRST_TASK) { 

if (*p& & (*p) ->pgrp==current-> pid) 

if (err=send sig (sig, *p, 1) ) 

retval=err; 

else if (pid>0) while (--p> &FIRST_TASK) { 


if (*p&& (*p) ->pid==pid) /找到 processsig 进 程 


if Cerr=send_sig (sig, *p, 0) ) /此 函数 负责 具体 的 发 送 工作 
retval=err; 

yelse if (pid==-1) while (--p> &FIRST_TASK ) 

if (err=send sig (sig, *p, 0) ) 

retval=err; 


/代码 路 径 : kernel/exit.c: 

static inline int send_sig (long sig,struct task_struct * p,int priv) 
{ 

if C! pllsig<1||sig>32) 

return-EINVAL; 


if Cpriv|| Ccurrent->euid==p->euid) ||suser © ) 





p->signalJ= (1<< (sig-1) ) ; /在 processsig 进 程 的 信号 位 图 
(signal) 中 找到 SIGUSR1 这 一 信号 对 应 的 位 置 ， 然 后 将 其 置 1 


else 


return-EPERM; 


return 0; 


} 


将 SIGUSR1 信 号 发 送 给 processsig 进 程 的 过 程 及 
该 过 程 对 processsig 进 程 管理 结构 中 相应 字段 的 影响 
如 图 8-24 所 示 。 








之 后 ， 就 返回 sendsig 用 户 进程 空间 内 继续 执行 
随 着 时 钟 中 断 不 断 产 生 ，sendsig 进 程 的 时 间 片 将 被 
削减 为 0， 导 致 进程 切换 ，schedule〈) 函数 开始 执 
行 。 对 应 代码 如 下 : 


// 代 人 码 路 径 : kernel/sched.c: 


void schedule (void) 


for (p=&LAST_TASK; p> &FIRST_TASK; --p) 


if (*p) { 

if ( (*p) ->alarm& & (*p) ->alarm<jiffies) { 
(*p) ->signall= (1<< (SIGALRM-1) ) ; 
(*p) ->alarm=0; 

} 


if ( € (*p) ->signal& ~ (_BLOCKABLE& (*p) -> 
blocked) ) 区 & /遍历 到 processsig 进 程 后 ， 检 测 到 其 接收 的 信和 号 


(*p) ->state==TASK_INTERRUPTIBLE) ) /processsig 进 程 还 是 可 
中 断 等 待 状态 


(*p) ->state=TASK_RUNNING; // 将 其 设置 为 就 绪 态 





该 过 程 如 图 8-25 所 示 。 
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图 8-24 给 processsig 进 程 发 送信 号 


0x0 OxOFFFF OxFFFFF Ox3FFFFF OxSFFFFF OxFFFFFF 
sendsig ee ae ene le raat 
进程 代码 | 进程 代码 | 


ahi < Se 
s . . ". 
aoe t., st” t., 

. . . . 
Po . =t 9 


CS:EIP 
nt OR OO ae 
sendsig 进 程 processsig 进 程 
| 就 绪 态 | 就 绪 态 


Al 8-25 processsig# Wa sn, KREAMA 
ae 


JON 


FAE RE, WAY Bll processsigit F 
去 执行 ， 执 行 代码 如 下 : 





// 代 人 码 路 径 : kernel/sched.c: 


void schedule (void) 


while (1) { 

C=-1; 

next=0; 

i=NR_TASKS; 
p=&task[NR_TASKS]; 
while (--i) { 


if (! *--p) 


continue; 
if ( (*p) ->state==TASK_RUNNING& & (*p) ->counter>c) 
c= (*p) ->counter,next=i; /这 时 候 processsig 进 程 已 经 就 绪 了 
} 
if (c) break; 
for (p=&LAST_TASK; p>&FIRST_TASK; --p) 
if (*p) 
(*p) ->counter= ( (*p) ->counter>>1) + 
(*p) ->priority; 
} 
switch to (next) ; /切换 到 processsig 进 程 去 执行 


} 





4. 系 统 检测 当前 进程 接收 到 信号 并 准备 处 理 


processsig 进 程 开始 执行 后 ， 会 继续 在 for 循 环 
中 执行 pause O 函数 。 由 于 这 个 函数 最 终 会 上 映 冉 到 


sys_pause () 这 个 系统 调用 函数 中 去 执行 ， 所 以 当 
系统 调用 返回 时 ， 束 一定 会 执行 到 
ret_from_sys_call: 标号 处 ， 并 最 终 调用 

do_signal O 函数 ， 开 始 着 手 处 理 processsig 进 程 的 
ayo TAFT HSU F: 








/代码 路 径 : kernel/system_call.s: 

ret _from_sys_call: 

movl _current, %eax#task[0]cannot have signals 

cmpl _task, %eax 

je 3f 

cmpw $0x0f,CS (%esp) #was old code segment supervisor? 
jne 3f 

cmpw $0x17, OLDSS (%esp) #was stack segment=0x17? 


jne 3f 


movl signal (%eax) , %ebx 
movl blocked (%eax) , %ecx 
notl %ecx 

andl %ebx, %ecx 

bsfl %ecx, Y%ecx 

je 3f 

btrl %ecx, Y%ebx 

movl %ebx,signal (%eax ) 
incl %ecx 

pushl %ecx 


call _do_signal// 准 备 处 理 信和 号 





5. 系 统 检 测 信 号 处 理 函 数 指针 挂 接 是 合 正 常 


现在 开始 介绍 信和 号 处 理 之 前 的 准备 工作 。 


#EAdo_signal O 函数 后 ， 先 要 对 processsig 进 
程 的 信号 处 理 函 数 进行 判定 。 我 们 在 本 节 前 面 介绍 
过 ，Pprocesssig 进 程 的 信号 处 理 函 数 指针 补 加载 到 了 
进程 task_struct 中 的 sigaction[32] 结 构 中 ， 如 网 8-26 


所 示 。 
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Al 8-26 信号 处 理 函 数 指 针 在 sigaction 结 构 中 的 
位 置 
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进程 就 很 有 可 能 退出 。 当 然 ， 此 时 的 情况 是 ， 
指针 肯定 不 为 宇 ， 它 指 问 了 processsig 进 程 的 信号 处 
里 函数 sig_usr() 。 检 测 工作 对 应 的 代码 如 下 : 











/代码 路 径 : kernel/signal.c: 

void do_signal (long signr,long eax,long ebx,long ecx,long edx, 
long fs,long es,long ds, 

long eip,long cs,long eflags, 


unsigned long * esp,long ss ) 


ee 


sa_handler= (unsigned long) sa->sa_handler; 


if (sa_handler==1 ) 


return; 

if C! sa handler) {V 如 果 函 数 指针 为 空 

if (signr==SIGCHLD) /如 果 是 SIGCHLD 信 和 号， 直接 返回 
return; 

else 


do _exit (1< < (signr-1) ) ; /和 否则 当前 进程 退出 


ee 


6. 调 整 processsig 进 程 的 内 核 栈 结构 ， 使 其 系统 
调用 返回 后 ， 先 执行 信号 处 理 函 数 








这 里 所 做 的 准备 工作 的 核心 目的 是 对 用 户 栈 中 
的 数据 进行 调整 ， 使 得 此 次 系统 调用 返回 后 会 “ 首 
先 ” 执 行 processsig 进 程 的 “信号 处 理 函 数 ”"， 然 后 从 
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介绍 的 pause〈) 函数 执行 后 产生 int 0x80 软 中 断 的 
下 一 条 指令 处 就 是 这 个 用 户 进 程 的 “中 断 位 置 ”〈 当 
然 ， 如 有 果 不 需 要 处 理 信 号 ， 直 接 返 回 “ 中 断 位 置 ?处 
就 可 以 了 ， 但 现在 要 先 处 理 信 号 问题 ， 再 回 “ 中 断 
(Me): 








软 中 断 产生 后 ，CPU 将 自动 在 当前 进程 “内 核 
栈 ” 中 保存 用 户 进程 执行 的 “指令 和 数据 "， 其 中 包 
括 EIP、CS、EFLAGS、ESP、SS 这 些 寄存 器 的 
值 。 这 样 ， 只 要 系统 调用 返回 , “内 核 栈 ”中 这 些 数 
值 反 填 回 对 应 的 寄存 器 ， 以 此 保证 返回 用 户 空间 
的 “中 断 位 置 ?处 继续 执行 。 











面 对 这 种 情况 ，Linux 0.11 束 在 此 次 系统 调用 
返回 前 ， 先 把 这 些 “ 内 核 栈 ”中 保存 的 寄存 右 值 备份 








在 当前 进程 的 “用 户 栈 * 中 内核 有 能 力 访 问 到 所 有 
物理 内 存 ， 做 这 件 事 不 成 问题 》， 然 后 对 “内 核 
栈 ” 中 的 这 些 原 有 的 寄存 强 值 进行 更 改 。 这 束 使 得 
系统 调用 函数 返回 后 ， 首 和 完 根据 “内 核 栈 * 中 最 狐 更 
改 的 数据 跳 转 到 用 户 空 间 的 信号 处 理 函 数 处 执行 。 
BAA Pa, SPR mA REE S, Bl 
童 号 处 理 完 毕 后 ， 再 通过 前 面 备份 在 用 户 空 间 
的 “指令 和 数据 "”， 返 回 “ 中 断 位 置 ?处 执行 。 

















这 束 是 信号 处 理 的 全 部 策略 。 下 面 我 们 来 看 具 
体 的 实现 代码 : 


/代码 路 径 : kernel/signal.c: 
void do_signal (long signr,long eax,long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip,long cs,long eflags, 


unsigned long * esp,long ss) 


ee 


if (sa->sa_flags& SA_ONESHOT ) 
sa-->sa_handler=NULL; 


* (Geip) =sa_handler; // 调 整 内 核 栈 中 EIP 位 置 ， 使 其 指 问 
processsig 进 程 的 信号 处 理沙 数 sig_usr 


longs= (sa->sa flags & SA NOMASK) ?7: 8; 


* (&esp) -=longs; // 对 "用 户 栈 "空间 的 栈 顶 指针 ESP 进 行 调整 ， 使 
栈 顶 指针 回 栈 底 的 反方 回 移 动 ， 以 便 接 下 来 在 用 户 栈 空间 中 备份 数据 





verify _area (esp,longs*4) ; 





tmp _esp=esp; // 以 下 是 同 用 户 栈 空 间 中 写 入 用 于 恢复 现场 的 数据 
put_fs long ( (long) sa->sa_restorer,tmp_espt++) ; 

put _fs_long (signr,tmp_espt++) ; 

if (! (sa->sa_flags& SA_NOMASK) ) 

put fs long (current->blocked,tmp_esp++) ; 

put _fs_long (eax,tmp_esp++) ; 


put _fs long (ecx,tmp_espt++) ; 


put fs long (edx,tmp_espt++) ; 

put _fs_ long (eflags,tmp_espt++) ; 
put _fs_long Cold_eip,tmp_esp++) ; 
current- > blocked|=sa- >sa_mask; 


} 





上 述 修改 内 核 栈 和 用 户 栈 的 过 程 ， 以 及 用 户 栈 
空间 和 内 核 栈 空间 的 数据 调整 前 后 的 变化 如 图 8-27 
和 图 8-28 所 示 。 
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Al 8-27 调整 前 的 内 核 栈 和 用 户 栈 的 现场 数据 及 


DA 
其 意义 


内 核 栈 空间 用 户 栈 空间 
= a 





系统 调用 软 中 
断 的 现场 位 置 






sig usr 
A 


信号 处 理 程序 


restorer 
现场 恢复 程序 


图 8-28 调整 后 的 内 核 栈 和 用 户 栈 的 现场 数据 及 
eM 


言 号 预 处 理工 作 到 这 里 已 经 完成 。 下 面 我 们 看 
这 些 数据 在 此 次 系统 调用 返回 后 都 是 如 何 被 应 用 
的 ， 以 及 它们 对 “信号 处 理 函 数 的 执行 "? 和 “执行 后 
进程 现场 的 恢复 ”部 产生 了 哪些 影响 。 





前 面 已 经 将 信号 处 理 函 数 sig_usr 与 processsig 进 
程 进行 了 绑 定 ， 因 此 系统 调用 返回 后 ， 就 会 到 
processsig 进 程 的 sig_usr 疯 数 处 执行 ， 处 理 信号 ， 李 
数 执行 结束 后 ， 会 执行 ret” 指令 。ret 的 本 质 束 是 用 
当时 保存 在 栈 中 的 EIP 的 值 来 恢复 EIP 和 寄存 占 ， 跳 转 
到 EIP 指 回 的 地 址 位 置 去 执行 。 于 是 此 时 处 于 栈 顶 
的 sa- 之 sa_restorer 所 代表 的 函数 地 址 值 就 发 挥 作用 
了 ， 此 时 就 应 该 跳 转 到 sa-> 之 sa_restorer 所 代表 的 函 
数 地 址 值 位 置 去 执行 了 。 








本 节 前 面 讲 到 ， 还 将 一 个 叫做 restorer 的 函数 地 
址 绑 定 在 了 sigaction[32] 结 构 中 。restorer 是 一 个 库 
函数 的 地 址 ， 它 是 由 signal 这 个 库 函 数 传 递 下 来 的 
实 参 。 这 个 库 函 数 将 来 会 在 信号 处 理工 作 结束 后 恢 
复 用 户 进 程 执 行 的 “指令 和 数据 ”， 并 最 终 跳 转 到 用 





户 程序 的 < 中断 位 置 ? 处 执行 。 


现在 信号 已 经 处 理 完 了 ，restorer 函 数 开始 工 
作 。 我 们 先 来 看 一 下 这 个 函数 的 代码 : 





.globl sig_restore 
.globl masksig_restore 
sig_restore: 


addl $4, %esp 


popl %eax/ 前 面 do_signal 函 数 中 最 后 设置 的 用 户 栈 的 内 容 ， 这 里 正 
好 用 来 pop1， 用 以 恢复 寄存 器 的 值 


popl %ecx 

popl %edx 

popfl 

ret 
____masksig_restore: 


addl $4, %esp 


call ssetmask 
addl $4, %esp 


popl %eax/ 前 面 do_signal 函 数 中 最 后 设置 的 用 户 栈 的 内 容 ， 这 里 正 
好 用 来 pop1， 用 以 恢复 寄存 器 的 值 


popl %ecx 
popl %edx 
popfl 


ret 





前 面 所 介绍 的 do_signal ©) 函数 调整 栈 空间 的 
数值 ， 正 好 在 这 里 发 挥 人 作用。 我们 回顾 一 下 代码 ， 
如 下 : 








/代码 路 径 : kernel/signal.c: 
void do_signal (long signr,long eax,long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip,long cs,long eflags, 


unsigned long * esp,long ss ) 


put _fs long ( (long) sa->sa_restorer,tmp_espt++) ; 
put _fs_long (signr,tmp_espt++) ; 

if (! (sa->sa_flags& SA_NOMASK) ) 

put _fs long (current->blocked,tmp_esp++) ; 

put _fs_long (eax,tmp_esp++) ; 

put _fs_long Cecx,tmp_esp++) ; 

put _fs_ long (edx,tmp_esp++) ; 

put _fs_long (eflags,tmp_espt++) ; 

put _fs_ long (old_eip,tmp_esp++) ; 

current- > blocked|=sa- >sa_mask; 


} 





现场 恢复 后 ， 束 要 返回 现场 执行 。 
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转 到 EIP 指 问 的 位 置 去 执行 ， 很 显然 ， 经 过 一 系列 
清 栈 操作 后 ， 当 前 栈 顶 的 数值 就 
是 “put_fs_long (old_eip,tmp_esp++) ”这 行 代码 设 
置 的 。 这 个 old_eip 就 是 pause () 函数 为 了 映射 到 
sys_pause () 函数 ， 产 生 软 中 断 int0x80 的 下 一 行 代 
人 码 ， 即 processsig 进 程 的 “中 断 位 置 ?。 所 以 ，ret 执 行 
后 ， 信 号 就 处 理 完毕 ， 并 最 终 回 到 pause〈() 函数 中 
去 继续 执行 。 





wt ze Linux 0.11 中 信号 处 理 的 全 部 过 程 。 


8.2.2 ”信号 对 进程 执行 状态 的 影响 





下 面 将 介绍 本 市 的 第 二 部 分 内 容 ， 即 分 别 以 进 
程 的 * 可 中 断 等 待 状态 ”和 “不 可 中 断 等 待 状态 ”为 例 
进行 对 比 ， 体 现 信号 对 进程 执行 状态 的 不 同 影响 。 








可 中 断 等 待 状态 案例 代码 如 下 ; 





#include <stdio.h> 
main () 

{ 

exit () ; 


} 


shell 进 程 创建 了 这 个 用 户 进程 (该 进程 束 目 然 
成 为 shell 进 程 的 子 进 程 ) 后 ， 叉 被 设置 为 可 中 断 等 
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此 为 例 来 介绍 信号 对 进程 执行 状态 的 影响。 


1. 用 户 进 程 退出 并 向 shell 进 程 友 送信 号 


用 户 进程 先 调用 exit O 函数 来 处 理 自己 退出 
前 的 一 些 事务 ， 包 括 将 自己 的 程序 所 占用 的 内 存 页 
面 释 放 、 解 除 该 进程 与 所 操作 文件 的 关系 等 ， 之 
后 ， 给 shell 进 程 发 送 “ 子 进程 退出 信号， 通知 shell 
进程 ， 自 己 即 将 退出 ， 最 后 将 自己 设置 为 僵 死 状态 
并 调用 schedule《〈) 函数 ， 准 备 进程 切换 ， 对 应 代 
人 码 如 下 : 








/代码 路 径 : kernel/exit.c: 


int do_exit (long code) // 子 进程 退出 


if (current->leader ) 

kill session (©) ; 

current- >state=TASK_ZOMBIE; 

current- > exit_code=code; 

tell _father (current->father) ; /给 父 进程 发 信号 
schedule © ; /进程 切换 


return (-1) ; /*just to suppress warnings*/ 


static void tell_ father Cint pid) 


int i; 

if (pid) 

for (i=0; i<NR_TASKS; i++) {// 寻 找 父 进程 ， 即 shell 进 程 
if C! task[i]) 

continue; 

if Ctask[i]->pid! =pid) 


continue; 


task[i]->signal|= (1<< (SIGCHLD-1) ) ; // 给 shell 进 程 发 送 " 子 
进程 退出 "信号 


return; 





用 户 进 程 退 出 过 程 中 发 送信 号 以 及 将 目 身 设置 
为 僵 死 状态 的 过 程 如 图 8-29 所 示 。 


ae 人 OxFFFFF Ox3FFFFF OxSFFFFF OxFFFFFF 


第 一 步 ， 用 户 进程 部 
| emai st 分 占用 页 面 被 释放 


shelil 的 task_struct . 


he 
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用 户 进 程 shell 进 程 
| mera | meses 
t adji Jea | 
. 第 三 步 ， 用 户 进程 ; 
当前 进程 被 设置 为 便 死 状态 ; 


图 8-29 用 户 进 程 癌 shell 进 程 发 信号 及 将 自 刁 设 


置 为 僵 死 状态 
2.shell 进 程 被 唤醒 并 调度 执行 


进入 schedule〈) 函数 后 ， 先 对 所 有 进程 进行 
第 一 次 遍历 ， 如 果 发 现 哪个 进程 接收 到 了 指定 的 信 
号 ， 而 且 该 进程 还 是 可 中 断 等 待 状态 ， 那 么 就 将 该 
进程 设置 为 就 绪 态 。 系 统 通过 遍历 得 知 ，shell 进 程 
符合 此 条 件 ， 于 是 shell 进 程 就 被 设置 为 就 绪 态 ， 如 
图 8-30 所 示 。 
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图 8-30 shell 进 程 设 置 为 就 绪 态 


对 应 代码 如 下 : 





/代码 路 径 :， kernel/sched.c: 


void schedule (void) 


for (p=&LAST_TASK; p> &FIRST_TASK; --p) 
if (*p) { 

if ( (*p) ->alarm& & (*p) ->alarm<jjiffies) { 
(*p) ->signall= (1<< (SIGALRM-1) ) ; 
(*p) ->alarm=0; 

} 


if ( ( (*p) ->signal& ~ (_BLOCKABLE& (*p) -> 
blocked) ) & &/ 检 查 进 程 是 否 接收 到 信和 号 











(*p) ->state==TASK_INTERRUPTIBLE) /检查 进程 是 否 为 可 中 





(*p) ->state=TASK_RUNNING; /如 果 条 件 同 时 符合 ， 就 将 进程 
设置 为 就 绪 态 


Zia, Bia AA ERE, p R Ashellit 
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人 码 如 下 : 





// 代 人 码 路 径 : kernel/sched.c: 


void schedule (void) 


while (1) { 
c=-1; 

next=0; 
i=NR_TASKS; 


p=&task[NR_TASKS]; 


while (--i) { 

if (! *--p) 

continue; 

if © (*p) ->state==TASK_RUNNING& & (*p) ->counter>c) 

c= (*p) ->counter,next=i; 

} 

if Cc) break; 

for (p=&LAST_TASK; p> &FIRST_TASK; --p) 

if (*p) 
(*p) ->counter= ( (*p) ->counter>>1) + 
(*p) ->priority; 

} 

switch _to (next) ; /切换 到 shell 进 程 去 执行 


} 





3.shell 进 程 执行 ， 为 子 进程 退出 做 最 后 的 处 理 


shell 进 程 开 始 执行 后 ， 调 用 wait O 函数 为 子 
进程 退出 做 处 理 ， 包 括 将 子 进程 task_struct 所 占用 
的 页 面 释放 挥 等 ， 如 图 8-31 所 示 。 
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图 8-31 shell 进 程 处 理 用 户 进 程 退 出 后 的 善后 工 
作 


执行 代码 如 下 : 


/代码 路 径 : kernel/exit.c: 
int sys_waitpid (pid_t pid,unsigned long * stat_addr,int options ) 


{ 


ee 


repeat: 

switch ( (*p) ->state) { 

case TASK_STOPPED: 

if (! Coptions& WUNTRACED) ) 
continue; 

put _fs long (0x7f,stat_addr) ; 
return (*p) ->pid; 

case TASK_ZOMBIE: /检测 到 子 进 程 为 僵 死 状态 ， 将 做 如 下 处 理 
current->cutime+= (*p) ->utime; 
current->cstime+= (*p) ->stime; 
flag= (*p) ->pid; 

code= (*p) ->exit_code; 

release (*p) ; 

put fs long (code,stat_addr) ; 
return flag; 


default: 


flag=1; 


continue; 


if Cflag) { 

if Coptions & WNOHANG ) 

return 0; 

current- > state=TASK_INTERRUPTIBLE; 
schedule () ; 


if (! (current->signal&=~ (1<< (SIGCHLD-1) ) ) ) /得 知 
接收 到 的 信号 为 子 进 程 退出 信号 





goto repeat; 


else 


return-EINTR; 


return-ECHILD; 





4.shell 进 程 再 次 被 挂 起 


之 后 shell 进 程 继续 执行 ， 从 tty0 这 个 终 站 设备 
文件 上 读 取 数据 。 我 们 假设 此 时 用 户 并 没有 通过 键 
得 输入 任何 信息 ， 这 样 shell 进 程 什么 数据 都 没有 读 
到 ， 于 是 shell 进 程 将 被 设置 为 可 中 断 等 待 状态 ， 等 
待 着 下 次 被 唤醒 ， 如 图 8-32 所 示 。 





0x00000 OxOFFFF OxFFFFF Ox3FFFFF OxSFFFFF OxFFFFFF 
ee ROR ee ee 
hell EFA 


图 8-32 shell ERE EA EA Fy ATE ERAS 





由 此 可 见 ， 对 处 于 可 中 断 等 竺 状态 的 进程 而 
=, ZERIE, schedule O 函数 执行 时 会 检测 








SCR aS METAS, FRR RRA A 
态 ， 以 此 唤醒 该 进程 。 





下 面 介绍 进程 的 不 可 中 断 等 竺 状态。 我 们 假设 
现在 系统 中 有 三 个 用 户 进 程 ， 分 别 是 进程 A、 进 程 
B 和 进程 C， 它 们 现在 都 处 于 就 绪 态 ， 其 中 进程 B 是 
进程 A 的 子 进程 ， 进 程 A 正 在 运行 。 我 们 以 此 情景 
为 例 来 介绍 信号 对 进程 执行 状态 的 影响 。 








进程 A 和 进程 B 案 例 程序 如 下 : 


main () 

{ 

char buffer[12000]; 

int pid,i; 

int fd=open ("/mnt/user/hello.txt", O_RDWR, 0644) ) ; 


read (fd,buffer,sizeof (buffer) ) ; // 读 文件 


if C! (pid=fork () ) ) { 





exit () ; /进程 B〈 子 进程 ) 的 代码 

} 

if (pid>0) 

while (pid! =wait (&i) ) // 等 待 子 进程 退出 
close (fd) ; 

retum; 


} 





进程 C 采 例 程 序 如 下 : 





main () 


{ 


int ij; 


for (i=0; i<1000000; i++) 


for (i=0; i<1000000; i++) 


} 


1. 进 程 A 由 于 等 街 读 盘 而 被 挂 起 





进程 A 需 要 读 硬盘 ， 于 是 调用 read O 函数 产 
生 软 中 断 ， 并 最 终 映 射 到 sys_read〈) 函数 去 执 
行 。 经 过 一 系列 函数 调用 后 ， 发 送 读 盘 命令 ， 返 回 
后 ， 进 程 A 被 设置 为 不 可 中 断 等 待 状 态 。 这 是 因为 
进程 A 下 一 步 的 执行 需要 此 次 读 盘 的 数据 来 文 持 ， 
在 数据 被 读 出 之 前 ， 这 个 进程 无 论 收 到 什么 信号， 
都 不 能 被 唤醒 。 如 果 被 唤醒 了 ， 它 将 操作 缓冲 区 里 
面 的 数据 ， 而 此 时 缓冲 区 中 的 数据 并 没有 从 硬盘 读 
出 ， 这 将 引起 数据 混乱 。 这 个 过 程 如 图 8-33 所 示 。 
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图 8-33 进程 A 挂 起 


进程 A 执 行 并 最 终 挂 起 对 应 的 代码 如 下 : 





/代码 路 径 : fs/buffer.c: 


struct buffer head * bread (int dev,int block ) 


if (bh->b_uptodate ) 


return bh; 


ll_rw_block (READ,bh) ; 





wait __on_buffer (bh) ; /检测 是 人 否 需 要 等 到 绥 冲 块 解 锁 
if (bh->b_uptodate ) 
return bh; 


static inline void wait_on_buffer (struct buffer_head * bh) 
{ 

cli © ; 

while (bh->b_lock) /缓冲 块 确实 加 锁 了 

sleep _on ( &bh->b_wait) ; /只 好 将 进程 A 挂 起 

sti O ; 

} 

/代码 路 径 : kernel/sched.c: 


void sleep_on (struct task_struct ** p) 


ee 


tmp=*p; 
*p=current; 


current->state=TASK_UNINTERRUPTIBLE; // 将 进程 A 设置 为 不 可 
中 断 等 待 状态 


schedule () ; 
if (tmp) 
tmp- > state=0; 


} 


2. 进 程 A 切 换 到 进程 B 执 行 


之 后 也 要 调用 schedule O 函数 ， 最 终 会 切换 
到 其 他 进程 执行 。 我 们 假设 切换 到 进程 A 的 子 进 
程 ， 即 进程 B 去 执行 。 进 程 B 执 行 后 ， 准 备 退出 ， 
于 是 进程 B 被 设置 为 僵 死 状态 ， 之 后 给 进程 A 发 信 
号 ， 通 知 进程 A 自己 将 要 退出 了 ， 最 后 调用 
schedule () 函数 ， 准 备 进 程 切换 ， 如 图 8-34 所 
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图 8-34 进程 B 退 出 并 给 进程 A 发 信和 与 


执行 代码 如 下 : 





/代码 路 径 : kernel/exit.c: 


int do_exit (long code) /进程 B 退 出 


if (current->leader ) 

kill session (©) ; 

current- > state=TASK_ZOMBIE; 

current- > exit_code=code; 

tell _father (current->father) ; /给 父 进程 发 信号 
schedule © ; /进程 切换 


return (-1) ; /*just to suppress warnings*/ 


static void tell_ father Cint pid) 


int i; 

if (pid) 

for (i=0; i<NR_TASKS; i++) {// 寻 找 父 进程 ， 即 进程 A 
if C! task[i]) 

continue; 

if Ctask[i]->pid! =pid) 


continue; 


task[i]->signal|= (1<< (SIGCHLD-1) ) ; /给 进程 A 发 送 " 子 进 
程 退 出 "信和 号 


return; 





3. 进 程 A 虽 收 到 信和 号， 但 无 法 唤醒 


进入 schedule〈) 函数 后 ， 第 一 次 过 有 历 所 有 进 
程 。 此 时 进程 A 虽然 接收 到 了 信号 ， 但 由 于 它 是 不 
可 中 断 等 待 状态 ， 所 以 并 不 会 将 它 改 设 为 就 绪 态 ， 
于 是 此 次 只 能 切换 到 进程 C 去 执行 ， 如 图 8-35 所 


dk 


人 小。 
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图 8-35 进程 A 为 不 可 中 断 等 竺 状态 ， 无 法 用 信 


号 唤醒 


执行 代码 如 下 : 





/代码 路 径 : kernel/sched.c: 


void schedule (void) 


for (p=&LAST_TASK; p>&FIRST_TASK; --p) 


if (*p) { 

if ( (*p) ->alarm& & (*p) ->alarm<jjiffies) { 
(*p) ->signall= (1<< (SIGALRM-1) ) ; 
(*p) ->alarm=0; 

} 


if ( ( (*p) ->signal& ~ (_BLOCKABLE& (*p) -> 
blocked) ) & &//#r #5 BE REA ASE EU AIS 


ee 





4. 由 于 外 设 数据 读 取 完成 ， 进 程 A 被 唤醒 


进程 C 执 行 了 一 段 时 间 后 ， 进 程 A 指 定 的 数据 
己 经 从 硬盘 上 读 出 ， 于 是 便 盘 中 断 服 务 程序 会 将 进 
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待 状态 的 进程 改 设 为 就 绪 态 的 唯一 方法 ) ， 如 图 8- 
36 所 示 ， 执 行 代码 如 下 : 





/代码 路 径 : kernel/blk_dev/blk.h: 

extern inline void end_request (int uptodate ) 

{ 

DEVICE _OFF (CURRENT->dev) ; 

if (CURRENT->bh) { 

CURRENT- >bh->b_uptodate=uptodate; 

unlock _buffer (CURRENT->bh) ; /缓冲 块 解锁 
} 

if (! uptodate) { 

printk (DEVICE NAME"I/O error\n\r") ; 

printk ("dev%04x,block%d\n\r", CURRENT->dev, 


CURRENT->bh->b_blocknr) ; 


extern inline void unlock_buffer (struct buffer_head * bh ) 

{ 

if (C! bh->b_lock) 

printk (DEVICE_NAME": free buffer being unlocked\n") ; 
bh->b_lock=0; 


wake _up (&bh->b_wait) ; /把 等 待 缓冲 块 解锁 的 进程 唤醒 ， 即 
唤醒 进程 A 


} 





这 样 进程 A 束 具 备 执行 能 力 ， 但 这 并 不 等 于 进 
程 A 马 上 就 执行 。 硬 盘 中 断 服务 程序 返回 后 ， 仍 然 
是 进程 C 继 续 执 行 ， 如 图 8-36 所 示 。 


OxOFFFF OxFFFFF Ox3FFFFF OxSFFFFF OxFFFFFF 


0x00000 
A 
IE% 
进程 A 
| 就 绪 态 





图 8-36 ”进程 A 被 唤醒 


5. 切 换 到 进程 A 执 行 并 处 理 信和 号 





进程 C 的 时 间 户 用 完了 ， 驻 要 进行 进程 切换 。 
这 里 进入 schedule〈) KUE, ZIR AERA 
绪 态 ， 于 是 切换 到 进程 A 去 执行 。 进 程 A 开 始 执行 
后 ， 先 要 对 刚才 从 硬盘 上 读 出 来 的 数据 进行 处 理 ， 
至 此 ，sys_read〈) 函数 执行 完毕 。 此 时 ， 软 中 断 
准备 返回 ， 在 返回 之 前 ， 先 要 检 碍 一 下 进程 A 是 合 


有 接收 到 任何 信号 。 朱 人 然 ， 检 查 到 进程 A 接 收 到 了 
信号 ， 于 是 将 处 理 该 信号 的 服务 程序 入 口 地 址 进行 
处 理 ， 以 便于 一 旦 此 次 软 中 靳 返回 ， 残 由 信 扎 处 理 
程序 处 理 该 信号 《现在 的 情况 是 ， 要 将 进程 B 退 出 
的 善后 事务 彻底 处 理 完 ) ， 这 个 过 程 如 图 8-37 所 


人 小。 





i Ox9FFFF OxFFFFF Ox3FFFFF 0x5FFFFF OxFFFFFF 





il ps 
进程 B 的 task struct 
所 占用 的 页 面 被 娩 放 





nt OO RN E VLLL EE 
进程 C 进程 B 进程 A 

; et fi 5 l 

: t 

: 当前 进程 


图 8-37 进程 A 执 行 并 处 理 信 号 


由 此 可 见 ， 对 处 于 不 可 中 断 等 竺 状态 的 进程 而 








言 ， 除 直接 将 其 设置 为 就 绪 态 之 外 ， 没 有 任何 办 法 
将 它 的 状态 改变 为 融 绪 态 ， 是 否 接收 信号 都 没 意 


Me 





8.3 本章 小 结 








进程 间 通 信 本 应 是 操作 系统 比较 难以 掌握 的 内 
容 ， 但 Linux 0.11 的 进程 间 通 信 设 计 的 比较 简单 。 
俗话 说 ， 麻 洗 虽 小 ， 五 脏 俱全 。 读 者 可 以 依托 这 个 
虽然 简单 却 可 实际 运行 的 进程 间 通 信 模 型 ， 进 一 步 
深入 理解 高 版 本 的 进程 间 通 信和 问题 。 


言 号 是 操作 系统 中 很 重要 的 概念 。 本 音 详 细 讲 
解 了 信号 机 制 ， 并 提出 了 信和 号 是 仿 软 中 断 的 理解 。 





HIM ”操作 系统 的 设计 指导 思想 


一 一 《诗经 小 雅 》 


前 8 章 详细 分 析 和 讲解 了 Linux 操 作 系 统 的 运行 
原理 与 工作 机 制 。 本 章 将 尝试 从 设计 者 的 视角 探讨 


操作 系统 的 设计 指导 思想 。 


9.1 运行 一 个 最 简单 的 程序 ， 看 操作 
系统 为 程序 运行 做 了 哪些 工作 








透彻 理解 操作 系统 的 好 方法 之 一 就 是 查看 当 一 
个 最 简单 的 程序 在 计算 机 上 运行 时 ， 操 作 系 统 都 做 
了 些 什么 s 


我 们 以 一 个 C 语 言 版 的 “hello world” 为 例 : 


#include<stdio.h> 

void main () 

{ 

printf ("hello world\n") ; 


} 


这 段 程 序 被 编译 、 链 接 之 后 会 生成 一 个 可 执行 
文件 。 我 们 在 Linux 操 作 系 统 上 运行 这 个 程序 ， 最 
终 会 在 屏幕 上 输出 “hello world”。 表 面 上 看 ， 在 屏 
幕 上 显示 的 “hello world” 都 是 我 们 写 的 程序 的 功 
劳 ， 其 实 我 们 写 的 程序 只 起 到 了 很 小 的 作用 。 很 明 
显 的 是 ， 这 个 程序 里 使 用 了 C 语 言 的 库 函 数 printf。 
因为 本 书 的 主题 是 操作 系统 ， 所 以 我 们 暂 不 讨论 库 
函数 。 




















我 们 粗略 地 浏览 一 下 Linux 0.11 为 hello 程 序 的 
运行 都 做 了 些 什么 。 下 面 的 小 字 是 对 操作 系统 所 做 
的 工作 的 概要 描述 ， 涉 及 操作 系统 的 代码 在 1 万 行 
以 上 ， 除 进程 间 通 信之 外 ， 几 乎 涉及 操作 系统 的 方 
方面 面 。 我 们 写 这 些 文字 的 目的 ， 是 想 让 读者 对 运 
行 一 个 最 简单 的 程序 ， 操 作 系 统 都 做 了 哪些 工作 有 








一 个 直观 的 了 解 。 


案例 描述 : 硬盘 上 有 一 个 名 叫 hello 的 可 执行 文 
件 ， 该 文件 的 源 程序 如 前 。 


现在 系统 已 经 处 于 居 速 状态 了， 用户 准备 通过 
键入 一 条 指令 ./hello， 使 硬盘 上 该 文件 中 的 程序 加 


载 并 执行 ， 最 终 将 hello world 这 个 字符 串 显示 出 








为 实现 这 一 步 ， 系 统 将 至 少 进行 如 下 准备 工 


(1) 用 户 融 击 键 盘 后 ， 键 入 的 信息 记录 在 终 


mm Ve SCE (tty0) 上 。 


如 果 系 统 要 以 文件 的 形式 对 终端 设备 进行 操 
作 ， 首 先 要 构建 一 整套 文件 系统 ， 之 后 加 载 该 文件 
系统 ， 以 便 在 此 基础 上 对 文件 进行 操作 。 这 套 文 件 
系统 包括 “超级 块 " “人 逻辑 块 位 图 ”、 重 节点 位 
图 ”人 “文件 市 点 “数据 块 ? 等 。 其 次 ， 还 要 根据 
文件 的 不 同 功能 对 数据 进行 分 类 ， 包 括 普 通 文件 、 
设备 文件 、 目 录 文 件 等 。tty0 就 属于 设备 文件 。 有 
了 这 些 准备 才 有 可 能 对 终端 设备 文件 tty0 进 行 操 
dee 








(2) mich teat a, weer" seat PS, 
系统 要 能 够 对 键盘 中 断 信 号 进行 处 理 。 


首先 ， 这 个 中 断 信号 会 通过 可 编程 中 断 控 制 需 


8259A， 所 以 要 对 8259A 这 个 中 断 控 制 器 进行 设 
置 ， 然后， 信和 号 会 被 传达 给 CPU,CPU 要 通过 中 断 描 
述 符 表 寄存 器 CIDTR) 找到 内 存 中 的 中 断 描 述 符 
表 ， 再 通过 搜索 中 断 描述 符 表 找到 键盘 中 断 处 理 程 
序 ， 并 执行 该 程序 。 要 实现 这 些 操作 ， 就 要 构建 一 
整套 中 断 服务 体系 ， 其 中 包括 对 中 断 描述 符 表 寄存 
器 (IDTR) 进行 设置 和 建立 一 个 中 断 描述 符 表 ， 

用 以 和 中 断 服 务 程序 相 挂 接 ， 然 后 还 要 编写 中 断 服 
务 程序 ， 以 便 能 够 为 具体 的 中 断 服 务 。 此 外 ， 还 要 
将 这 些 中 断 服 务 程序 与 中 断 描 述 符 表 相 挂 接 。 








(3) 中 上 断 服务 程 序 开 始 执行 后 ， 唤 醒 shell 进 
程 ， 之 后 ， 通 过 进程 调度 机 制 ， 由 进程 0 切换 到 
shell 进 程 去 执行 。 


这 需要 系统 建立 一 整套 进程 沪 理 机 制 。 束 shell 


来 说 ， 要 创建 进程 并 加 载 shell 程 序 ， 这 样 才能 构建 
人 机 交互 界面 ， 同 时 ， 还 要 创建 一 个 进程 0， 并 在 
其 他 进程 都 不 处 于 就 绪 态 时 切换 到 进程 0 去 执行 ， 

而 且 一 旦 有 进程 被 唤醒 ， 就 又 立即 切换 到 该 进程 执 
行 。 这 个 机 制 要 适用 于 操作 系统 中 的 所 有 进程 。 媳 
然 要 支持 多 进程 执行 ， 就 还 要 设计 一 套 进程 轮 询 机 
制 ， 即 产生 时 钟 中 断 ， 导 致 进程 切换 。 这 个 机 制 里 
面色 有 很 多 的 问题 需要 考虑 ， 比 如 时 钟 中 断 服务 程 
序 的 设计 和 8253 定 时 器 的 设置 ， 等 等 。 




















(4) shell 进 程 通过 执行 自己 的 程序 从 tty0 这 个 
终端 设备 文件 上 读 取 用 户 键入 的 指令 信息 ， 然 后 解 
析 该 指令 ， 并 准备 进行 相应 的 处 理 。 当 然 ， 这 条 指 
令 不 是 敲 击 一 次 键盘 就 能 输入 的 。 每 次 敲 击 键盘 ， 
都 会 重复 上 述 动作 ， 然 后 shell 进 程 再 次 睡眠 ， 并 等 
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到 这 里 为 止 ， 系 统 仅仅 是 对 用 户 键入 的 命令 进 
行 啊 应 ， 正 陈 的 处 理 还 没有 开始 。 以 上 介绍 的 这 些 
准备 工作 ， 都 只 是 针对 具体 的 步骤 进行 了 最 简单 的 
STH KEER TFN, LASS Ee 
作 。 严 格 来 讲 ， 本 书 第 !、2、3、4 章 中 所 介绍 的 准 
备 工 作 ， 几 乎 都 要 派 上 用 场 ， 才 能 执行 这 第 一 步 。 





第 二 步 : shell 程 序 解析 出 用 户 命 令 后 ， 调 用 
fork 函 数 创 建 一 个 用 户 进 程 ， 以 便 对 hello world 文 件 
的 程序 进行 控制 。 


系统 在 这 里 至 少 要 为 用 户 进程 创建 一 套 进程 管 
理 结构 。 每 套 进程 都 要 有 一 套 这 样 的 结构 ， 以 便 控 
制 将 来 加 载 的 程序 。 这 套 结构 十 分 复杂 ， 包 括 时 间 





片 、 优 先 级 、 进 程 状 态 、 进 程 对 应 的 文件 、 进 程 的 
任务 状态 描述 符 表 〈TSS) ， 以 及 进程 的 局 部 数据 
描述 符 表 (LDT) ， 等 等 。 其 中 的 每 一 项 又 与 系统 
的 运行 有 着 生丝 万 缕 的 关系 。 比 如 说 TSS， 它 里 面 
存放 着 当前 进程 运行 时 所 有 寄存 器 中 的 数据 ， 一 
发 生 进 程 切换 ， 系 统 就 将 当前 各 个 寄存 器 中 的 数据 
存储 在 TSS 中 ， 同 时 用 即将 切换 到 的 进程 中 的 TSS 
中 的 数据 来 设置 各 个 寄存 器 中 的 值 ， 最 后 再 切换 。 
可 见 ， 这 个 TSS 中 的 数据 是 进程 切换 的 根本 保障 。 
再 比如 LDT， 它 里 面 存放 着 当前 进程 的 代码 段 搞 述 
符 和 数据 段 描 述 符 ， 这 两 个 描述 符 都 直接 控制 着 进 
程 所 控制 的 程序 ， 而 进程 运行 的 根本 目的 就 是 执行 
用 户 的 程序 。 











另外 ， 每 个 进程 都 会 有 TSS 和 LDT， 为 了 便于 
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符 表 (GDT) 。 所 有 进程 的 TSS 和 LDT 的 索引 都 存 
放 在 这 个 GDT 中 。 系 统 为 了 方便 操作 GDT， 并 进 一 
步 操作 LDT 和 TSS， 还 要 对 CPU 中 关于 这 三 个 表 的 
专用 寄存 器 进行 设置 ， 它 们 就 是 全 局 描述 符 表 寄存 
器 、 局 部 数据 寄存 器 和 任务 状态 寄存 器 。 











但 仅 有 这 些 ， 还 是 远 远 不 够 的 。 系 统 司 动 之 初 
征 实 模式 ， 各 个 段 宥 存 邢 中 都 是 实际 的 地 址 值 ， 直 
到 进入 保护 模式 ， 段 寄存 融 中 的 数值 才 变 成 了 段 选 
择 符 ， 这 样 GDT 才 能 参与 应 用 ， 所 以 系统 还 要 为 实 
模式 到 保护 模式 的 转换 做 全 方位 的 准备 工作 。 


以 上 这 些 只 是 针对 TSS 和 LDT 进 行 的 展开 分 
析 。 进 程 省 理 结构 中 其 他 成 员 与 系统 之 间 同 样 有 着 
紧密 的 关系 。 例 如 ， 进 程 调度 的 最 基本 方式 就 是 通 
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就 是 当前 进程 的 时 间 片 。 再 例如 ， 只 有 进程 才能 够 
操作 文件 ， 所 以 进程 就 要 与 文件 全 面 建立 关系 ， 包 
括 文件 的 闻 点 、 文 件 管理 表 中 的 表 项 、 进 程 昌 里 的 
文件 官 理 指 针 表 ， 等 等 。 





创建 进程 ， 束 必须 创建 进程 管理 结构 ， 而 进程 
常理 绩 构 中 的 成 员 一 个 都 不 能 少 ， 都 要 创建 并 设 
置 。 除 了 进程 管理 结构 ， 创 建 进程 的 时 候 ， 还 要 为 
新 进程 复制 页 表 和 创建 页 目录 项 。 这 些 部 与 内 存 页 
面 的 应 用 有 和 直接 关系 ， 而 内 存 的 应 用 策略 又 是 整个 
操作 系统 中 最 复杂 的 应 用 策略 之 一 。 








第 三 步 ， 新 进程 创建 完毕 后 ， 加 载 hello world 
文件 对 应 的 程序 。 


要 完成 这 一 步 ， 进 程 就 要 在 两 方面 进行 全 方位 
的 准备 ， 一 方面 是 文件 ， 为 一 方面 是 内 存 。hello 
world 程 序 一 定 是 以 可 执行 文件 的 方式 存储 在 便 盘 
上 的 ， 所 以 ， 在 文件 加 载 之 前 一 定 要 检测 文件 是 否 
可 用 ， 主 要 表现 在 对 文件 i 贡 点 的 检测 和 对 文件 头 的 
RMPI To PEC Be. AB Ri 
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等 ， 一 件 事 情 都 不 能 少 做 。 文 件 头 存储 在 数据 块 
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样 一 来 ， 整 个 文件 系统 中 涉及 的 全 部 内 容 都 要 用 到 
We 



































具备 了 载 入 文件 的 条 件 后 ， 就 要 将 hello world 
文件 载 入 内 存 中 了 。 这 样 系统 束 要 解决 所 有 与 内 存 





相关 的 问题 ， 包 括 要 与 原来 进程 共 圣 的 页 面 解除 天 
系 ， 这 就 涉及 页 面 引用 计数 、 页 面 三 级 定理 机 制 

(页 目录 表 、 页 表 、 页 面 ) 、 页 面 数据 (只 读 / 可 读 
可 写 ) 等 一 系列 问题 ， 系 统 就 要 为 此 建立 页 写 保 护 


等 机 制 来 解决 这 些 问题 。 








但 仅仅 解决 这 些 问 题 还 远 远 不 够 ， 程 序 的 加 载 
也 是 很 讲究 束 略 的 ， 其 中 最 重要 的 就 是 缺 页 中 断 机 
制 ， 即 必须 根据 需要 来 分 析 是 不 是 需要 申请 新 的 页 
面 来 加 载 程序 的 内 容 。 为 此 又 要 对 许多 数据 进行 判 
断 ， 这 样 才能 确定 加 载 的 必要 性 ， 比 如 线性 地 址 所 
对 应 的 物理 地 址 是 否 倍 映射 到 了 线性 地 址 空间 内 
等 ， 这 就 需要 一 套 物 理 地 址 到 线性 地 址 的 映射 方 
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并 不 等 于 一 定 要 把 外 设 的 程序 加 载 进来 。 比 如 ， 由 





压 栈 导致 的 缺 页 同样 要 申请 新 的 页 面 来 载 入 数据 ， 
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制 设 计时 需要 全 面 考虑 的 问题 。 


总 之 ，hello world 程 序 的 加 载 ， 几 乎 涉及 文件 
管理 与 内 存 管理 的 各 方面 。 而 且 ， 以 上 所 述 还 仅仅 
是 针对 hello world 这 一 个 进程 加 载 所 进行 的 最 基本 
的 介绍 。Linux 是 要 文 持 多 进程 执行 的 ， 每 个 进程 
都 有 可 能 加 载 自己 的 程序 ， 而 文件 和 内 存 又 是 所 有 
进程 可 以 共用 的 资源 ， 它 们 之 间 还 存在 着 更 为 复杂 
的 管理 关系 。 比 如 ， 两 个 进程 加 载 同一 个 hello 
world 文 件 时 ， 涉 及 要 不 要 共享 ， 如 何 共享 ， 共 享 
后 页 面 的 引用 计数 如 何 计算 ， 读 写 属性 如 何 确定 ， 
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第 四 步 : hello world 程 序 开 始 执行 ， 将 “hello 








world? ZIE dit AN HE BE RE_E 


hello world 程 序 加 载 进 内 存 后 就 要 开始 执行 
了 。 这 个 程序 比较 简单 ， 就 是 将 hello world 这 个 字 
符 串 显 示 到 屏幕 上 。 但 是 ， 即 便 如 此 ， 系 统 也 要 为 
此 做 很 多 的 工作 。 其 中 最 主要 的 就 是 关于 显示 方面 
的 工作 ， 比 如 ， 显 卡 属性 如 何 确定 ， 显 卡 是 单 色 还 
是 彩色 :显存 位 置 如 何 确定 ， 显 示 在 屏幕 上 的 位 置 
又 如 何 确定 ;如 果 字 符 数 量 过 多 ， 要 不 要 滚动 显 
示 ， 如 何 滚动 显示 ， 等 等 。 这 些 问题 都 要 操作 系统 
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从 以 上 这 些小 字 中 ， 我 们 不 难看 出 ， 即 使 是 运 
行 一 个 最 简单 的 程序 ， 操 作 系 统 也 要 做 非常 多 的 工 
作 。 我 们 反 同 思考 一 下 ， 似 乎 也 可 以 得 出 下 面 的 结 
论 : 如 果 没 有 操作 系统 ， 即 使 是 在 屏幕 上 显示 一 
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作 系 统 所 有 具备 的 功能 的 程序 。 训 不 夸张 地 说 ， 没 有 
操作 系统 ， 我 们 甚至 无 法 把 程序 加 载 到 计算 机 中 ， 
更 谈 不 上 得 到 运行 结果 了 。 














那么 ， 操 作 系 统 究竟 为 应 用 程序 的 运行 都 做 了 


ETA? 


经 过 综合 分 析 ， 我 们 归纳 出 ， 操 作 系统 的 一 部 
分 任务 是 为 应 用 程序 的 运行 提供 使 用 人 硬盘 、 显 示 
船 、 键 盘 等 外 设 的 基础 程序 ， 或 者 说 操作 系统 为 应 
用 程序 的 运行 提供 了 对 外 设 的 支持 。 如 来 操作 系统 
不 号 这 些 文 持 程 序 ， 应 用 程序 束 必 须 号 这 些 程序 ， 
而 且 所 有 应 用 程序 都 要 写 的 这 部 分 程序 的 内 容 也 都 
到 不 多 。 所 以 ， 我 们 也 可 以 把 操作 系统 看 成 所 有 应 
用 程序 共有 的 部 分 。 











像 Linux 这 样 的 现代 操作 系统 ， 不 仅 为 应 用 程 
序 提供 了 对 外 设 的 支持 ， 还 文 持 多 个 程序 同时 运 
行 。 这 就 要 求 操作 系统 不 但 要 文 持 外 设 ， 还 必须 对 
运行 的 多 个 程序 进行 有 效 的 组 织 、 管 理 和 协调 ， 防 
止 菜 个 程序 独占 CPU、 内 存 、 外 设 等 资源 ， 使 得 其 
他 程序 无 法 正常 运行 。 此 外 ， 还 要 防止 正在 运行 的 
程序 之 间 相 互 读 写 和 相互 履 盖 ， 确 保 所 有 程序 正确 
运行 。 最 关键 的 是 ， 操 作 系 统 不 能 被 应 用 程序 直接 
读 写 ， 更 不 能 被 应 用 程序 履 羡 。 
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9.2 ”操作 系统 的 设计 指导 思想 F 
奴 机 制 


以 上 这 些 看 似 合 情 合 理 的 要 求 背 后 似乎 隐藏 着 
这 样 一 个 问题 : 应 用 程序 是 程序 ， 操 作 系 统 也 是 程 
序 ， 操 作 系 统 程序 赁 什么 能 对 应 用 程序 进行 组 织 、 
常理 和 协调 而 不 党 应 用 程序 损害 呢 ? 











我 们 认为 赁 的 是 特权 机 制 。 要 想 让 操作 系统 做 
到 能 够 对 应 用 程序 进行 组 织 、 管 理 和 协调 ， 同 时 又 
不 受到 损害 ， 最 有 效 的 方法 就 是 使 操作 系统 与 应 用 
程序 之 间 、 应 用 程序 与 应 用 程序 之 间 进 行 有 效 的 分 
离 ， 同 时 要 做 到 操作 系统 能 随意 访问 应 用 程序 ， 而 
应 用 程序 不 能 访问 操作 系统 ， 应 用 程序 之 间 也 不 能 
互相 访问 。 











这 意味 着 ， 操 作 系 统 必 须 能 够 做 到 ， 如 果 它 要 
让 某 个 应 用 程序 在 内 存 中 的 什么 位 置 运行 ， 该 应 用 
程序 就 得 老 老 实 实地 在 那里 运行 ， 操 作 系 统 应 在 内 
存 中 为 应 用 程序 划 出 清晰 的 边界 ， 应 用 程序 不 能 越 
雷池 半 步 。 操 作 系 统 允 许 应 用 程序 占用 CPU 运行 多 
长 时 间 ， 应 用 程序 只 能 运行 多 长 时 间 ， 运 行 完 这 点 
时 间 后 ， 还 得 将 CPU 的 使 用 权 规 规 怎 矩 交 还 给 操作 
系统 ， 没 有 权利 私自 扣留 CPU 的 使 用 权 。 如 果 某 个 
应 用 程序 要 想 使 用 外 设 ， 不 能 直接 向 外 设 伸手 ， 得 
向 操作 系统 请 示 和 申请 。 如 果 操 作 系统 认为 可 以 让 
这 个 应 用 程序 使 用 外 设 ， 就 让 它 使 用 ， 如 果 操 作 系 
统 认 为 不 应 该 让 这 个 应 用 程序 使 用 外 设 ， 就 不 让 它 























在 这 样 的 特权 机 制 下 ， 操 作 系 统 和 应 用 程序 的 
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们 把 这 种 特权 机 制 称 为 主公 机 制 。 


9.2.1 主公 机 制 中 的 进程 及 进程 创建 机 制 


1. 程 序 边 界 与 进程 





为 了 实现 主 妈 机制 ， 痛 先 要 在 操作 系统 内 核 程 
序 与 应 用 程序 之 间 、 应 用 程序 与 应 用 程序 之 间 建 六 
有 效 的 边界 。 





现实 生活 中 的 物体 ， 大 部 分 种 闫 都 是 有 目 然 边 
FM. COMETS. RIAA AA 
边界 ; 我 们 目 身 有 皮肤 ， 这 是 我 们 的 天 然 边界 。 这 
些 天 然 的 边界 可 以 有 效 地 防止 人 与 人 之 间 、 物 与 物 
之 间 、 人 与 物 之 间 的 融合 ， 以 保持 独立 、 完 整 的 形 
体 ， 同 时 保持 了 独立 的 、 完 整 的 特性 。 现 实生 活 中 











也 有 一 些 物质 没有 天 然 的 、 确 定 的 边界 ， 比 如 气体 
和 液体 等 。 不 同 的 气体 之 间 因 为 没有 边界 ， 很 容易 
相互 融合 ， 不 分 你 我 。 我 们 想 要 盛 水 ， 最 有 效 的 方 
法 融 是 用 杯子 或 瓶子 之 类 的 有 边界 的 容 俘 。 











程序 代码 在 计算 机 中 的 情况 与 气体 和 液体 的 情 
况 类 似 ， 也 没有 天 然 的 、 确 定 的 边界 ， 这 就 需要 操 
作 系 统 人 为 确定 边界 ， 起 到 类 似 于 容器 的 分 离 和 承 
载 的 作用 。 为 此 ， 现 代 操 作 系统 的 设计 者 提出 了 进 
程 的 概念 ， 用 task_struct 数 据 结构 来 实现 明确 地 划 
分 边界 的 作用 。task_struct 是 进程 最 主要 的 标志 。 
从 操作 系统 的 角度 看 ， 进 程 就 是 运行 中 的 接受 操作 
系统 组 织 、 管 理 和 协调 的 程序 。 











2. 进 程 创建 


从 技术 上 讲 ， 创 建 进程 的 方法 不 止 一 种 ， 
Linux 操 作 系 统 的 进程 创建 采用 的 是 对 象 创建 模 
式 。 对 象 创 建 就 是 用 已 有 的 对 象 创建 新 的 对 象 ， 用 
己 有 的 进程 创建 新 的 进程 ， 也 就 是 所 谓 的 父子 进程 
创建 机 制 。 从 本 质 上 讲 ， 创 建 进程 最 主要 的 丈 是 创 
建 task_struct。 父 子 进 程 创 建 的 主要 机 制 束 古 从 父 
进程 的 task_struct 复 制 一 份 作为 子 进程 的 


task struct. 











从 逻辑 上 很 容易 反 推 出 ， 父 子 进程 创建 机 制 章 
味 看 最 初 的 父 进 程 必 须 独立 存在 ， 这 就 是 进程 0。 
不 难 理解 ， 进 程 0 不 能 由 父子 进程 创建 机 制 创建 ， 
所 以 只 能 由 操作 系统 设计 者 手工 编写 进程 0 的 
task_struct。 有 了 进程 0， 父 子 进 程 创 建 机 制 束 可 以 
用 进程 0 作为 父 进程 创建 子 进 程 。 
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调 的 对 象 。 下 面 我 们 将 分 析 操 作 系 统 中 的 主 妈 机 制 
是 如 何 实现 的 。 





9.2.2 ”操作 系统 的 设计 如 何 体 现 主 奴 机 制 


操作 系统 内 核 与 用 户 进 程 之 间 的 关系 应 该 设计 
为 主 妈 关系 ， 以 实现 主 妈 机制 。 实 现 了 主 奴 机 制 ， 
操作 系统 才能 稳定 地 运行 。 





操作 系统 的 设计 者 使 用 了 一 整套 设计 方案 来 实 
现 主公 机 制 。 下 面 我 们 从 操作 系统 设计 者 的 角度 ， 
分 三 方面 来 训 析 操作 系统 的 设计 思想 中 是 如 何 体现 
主 妈 机 制 的 。 第 一 方面 ， 进 程 调度 体现 的 主 奴 机 
制 ， 第 三 方面， 内存 定理 体现 的 主 妈 机 制 ， 第 三 方 
面 ， 文 件 系统 体现 的 主 妈 机 制 |。 











1. 操 作 系 统 在 进程 调度 中 体现 的 主 妈 机 制 


操作 系统 进行 进程 调度 时 ， 对 竺 内 核 和 进程 的 


方式 是 截然 不 同 的， 准确 地 说 ， 进 程 调 度 融 是 内 核 
操作 的 。 当 发 和 后 时 钟 中 断 时 ， 触 发 调度 程序 ， 调 度 
Re Fe Flt SHU ERE AOA TE) re GA Se, SRA Se, 
马上 进行 调度 ,不论 这 个 进程 的 工作 是 人 否 完 成 ， 立 
即 挂 起 这 个 进程 ， 调 度 其 他 进程 运行 。 如 果 是 内 

核 ， 调 度 程序 判断 确认 后 就 返回 ， 内 核 继 续 运 行 ， 
直到 工作 完成 为 止 ， 不 论 占 用 CPU 的 时 间 有 多 长 ， 

痢 是 如 此 ， 上 所 有 的 用 户 进程 都 要 停 下 来 ， 一 二 等 行 
内 核 运 行 结束 。 由 此 可 见 ， 系 统治 握 了 “进程 调度 
的 权利 ”后 ， 该 权利 只 针对 它 的 奴才 一 一 进程 ， 而 
不 能 针对 主子 本 喘 一 一 内 核 。 











Linux 操 作 系 统 每 次 分 配给 进程 的 运行 时 间 古 
由 大 干 时 间 厂 组 成 的 ， 分 配 多 少时 间 要 由 内 核 决 


定 ， 内 核 决定 多 少 就 是 多 少 ， 进 程 想 要 增加 时 间 








F, ER MAL A. — EIN TA) rod, CPU 
的 使 用 权 就 要 交还 内 核 。 值 得 注意 的 是 ， 这 个 “ 交 
还 ”不 是 通过 协商 或 轮流 “坐庄 >， 而 是 强行 收回 ! 

如 果 进 程 运行 结束 ， 融 算 还 有 剩余 的 时 间 记 ， 操 作 
系统 也 会 收回 CPU 的 使 用 权 ， 不 会 等 待 。 








如 果 不 采 用 主公 机 制 ， 而 是 把 进程 调度 设计 成 
进程 目 觉 、 主 动 地 将 执行 权限 上 交 人 至 操作 系统 ， 那 
么 ， 进 程 什么 时 候 上 交 CPU 的 使 用 权 以 及 是 个 
交 ， 直 接 取 决 于 进程 的 程序 设计 ， 操 作 系 统 几乎 无 
法 控制 。 更 可 怕 的 是 ， 如 有 宁 进 程 是 恶意 程序 ， 或 者 
及 生 异 币 僵 死 ， 操 作 系统 很 可 能 永远 无 法 回收 CPU 
的 使 用 权 ， 会 导致 整个 系统 凑 痪 。 


主 奴 机 制 的 设计 保证 了 应 用 程序 占用 CPU 资源 
的 情况 最 多 只 影响 操作 系统 分 配给 它 的 那些 时 间 














请 。 这 些 时 间 片 用 完 后 ， 执 行 权限 上 自然 回归 操作 系 
统 。 回 归 之 后 ， 操 作 系 统 就 可 以 处 理 进程 ， 其 至 将 
出 错 的 进程 强行 退出 。 





具体 的 技术 细节 在 第 6 章 已 经 详细 讲解 过 了 。 





2. 操 作 系 统 在 内 存 管 理 中 体现 的 主 奴 机制 





前 面 讲 过 ， 进 程 最 主要 有 的 标志 就 是 task_struct 
数据 结构 。 在 task_struct 数 据 结构 中 ， 明 确 地 定义 
了 进程 的 边界 ， 任 何 未 经 允许 的 跨越 边界 行为 都 将 
被 制止 。 有 了 清晰 的 边界 ， 就 保证 了 进程 不 能 直接 
越界 访问 操作 系统 内 核 ， 也 保证 了 进程 间 不 能 直接 
相互 访问 。 这 是 主 奴 机 制 的 体现 。 














Linux 0.11 的 内 核 和 用 户 进程 都 采用 了 分 页 机 
制 ， 但 是 采用 的 管理 数据 却 是 两 套 : 一 套 是 针对 内 


核 使 用 的 ， 分 页 范围 是 0 一 16 MB 的 全 部 内 存 空 

间 ; 男 一 套 是 针对 用 户 进 程 的 ， 分 页 范围 仅 限 于 1 
~16 MB 空间 (1 MB 以 内 的 是 内 核 空间 〉 ， 如 图 9- 
1 所 示 。 


十 十 十 十 


-+ 


内 核 分 页 区 


十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 


t 
十 
t 
+ 
t 
+ 
d 
+ 
+ 
+ 
t 
十 
+ 
+ 
+ 


+ 十 | 十 十 十 十 十 十 十 十 十 





从 图 9-1 中 可 以 清楚 地 看 出 ， 只 要 操作 系统 内 
核 代码 在 内 核 专用 区 ， 进 程 是 无 论 如 何 也 访问 不 到 
的 ， 而 内 核 的 访问 范围 却 赛 括 整个 内 存 空间 。 我 独 
占 的 地 方 你 来 不 了 ， 你 的 地 方 我 随便 去 ， 因 为 你 的 


HOT he RAH. Ae AZ, RARE”, 
FZ RR ECR AE ZR, SESE”! 


此 外 ， 用 户 进 程 只 能 面 对 一 个 逻辑 地 址 ， 不 能 
直接 使 用 物理 地 址 ， 需 要 使 用 内 存 的 时 候 ， 转 化 为 
一 个 线性 地 址 ， 再 根据 第 二 套 1 一 16 MBI E EA 
据 方案 转化 为 实际 物理 地 址 。 内 核 将 整个 内 存 划分 
为 统一 大 小 的 内 存 块 一 一 页 。 进 程 运行 时 ， 操 作 系 
统 给 进程 分 配 页 。 如 果 操 作 系 统 给 进程 分 配 了 两 个 
以 上 的 页 ， 这 些 页 不 一 定 是 相 邻 的 ， 而 且 通 种 是 不 
相 邻 的 。 这 些 页 具体 分 配 在 内 存 的 什么 地 方 ， 进 程 
FEN AE; OP SJL, BERET ANA. HE APA 
说 ， 进 程 其 至 部 感觉 不 到 分 页 。 在 进程 看 来 ， 它 使 
用 的 是 一 个 连续 的 逻辑 地 址 内 存 空间 。 

















进程 不 知道 目 己 在 哪儿 ， 更 不 可 能 知 着 别 的 进 





程 在 哪儿 ， 根 本 不 可 能 进行 进程 间 的 互 访 。 内 核 代 
人 码 肯 定 放 在 内 核 专用 区 里 ， 从 图 9-1 可 以 明显 地 看 
出 位 置 在 进程 的 访问 极限 之 外 ， 所 以 进程 不 可 能 访 
问 内 核 。 进 程 存储 区 在 内 核 的 访问 范围 之 内 ， 内 核 
束 可 以 随意 访问 进程 的 内 存 空间 。 这 是 典型 的 主 妈 
RR ! 








具体 的 拉 术 细 市 在 第 3 革 和 第 6 革 已 经 详细 讲解 
Afe 





3. 操 作 系统 在 文件 系统 中 体现 的 主 奴 机制 





以 写 文 件 时 申请 磁盘 空间 为 例 。 当 用 户 需 要 问 
倒 盘 写 文 件 时 ， 首 先 需 要 问 内 核 提 出 申请 ， 诬 明 目 
己 是 哪个 进程 、 目 己 需要 的 资源 大 小 ， 以 及 资源 的 
读 写 权限 ; 内核 接 到 申请 之 后 ， 会 结合 当前 的 磁盘 

















Cav. Bee CY SC ba Te oe Re ze FB ZB a AL 
该 用 户 进 程 的 请 求 。 如 果 有 多 个 进程 都 在 申请 资 

源 ， 内 核 会 决定 让 东 一 个 进程 先 获得 资源 ， 而 让 其 
他 进程 处 于 等 竺 状态， 并且 要 对 等 竺 队列 的 排序 做 
出 管理 ， 以 达到 内 核 认 为 的 最 好 标准 。 如 果 当 前 的 
资源 已 经 无 法 满足 要 求 ， 内 核 还 会 驶 回 进程 的 申 

请 。 这 里 也 充分 体现 了 内 核 和 用 户 进 程 的 主 奴 机 

制 。 用 户 进 程 的 工作 一 旦 涉及 底层 ， 是 没有 权利 下 
接 回 资源 伸手 的 ， 需 要 先 回 内 核 < 捉 申请”“ 打 报 
告 "。 内 核 掌 控 看 各 种 价 件 资源 ， 负 员 对 申请 资源 
的 众多 进程 进行 组 织 、 管 理 和 协调 。 




















具体 的 技术 细节 在 第 5 章 中 有 详细 的 讲解 。 


9.3 ”实现 主公 机 制 的 三 种 关键 技术 


上 上面 我 们 从 三 方面 详细 分 析 了 主 奴 机 制 的 设计 
指导 思想 在 操作 系统 中 的 体现 。 下 和 面 ， 我 们 将 讲解 
操作 系统 的 设计 者 是 靠 什 么 实现 主 妈 机 制 的 。 我 们 
认为 ， 主 要 依靠 三 项 关键 扩 术 : 保护 和 分 页 、 特 权 
级 、 中 断 。 这 三 项 技术 有 一 个 共同 特点 ， 融 是 依托 
CPU 提供 的 硬件 机 制 。 





9.3.1 ”保护 和 分 页 


我 们 在 第 1 章 就 讲 过 ，Linux 0.11 打 开 了 PE 和 
PG， 即 打开 了 保护 模式 和 分 页 机 制 。 打 开 保 护 模式 
后 ，CPU 的 寻 址 模式 发 生 了 实质 性 的 变化 。 以 代码 
寻 址 为 例 ， 实 模式 时 是 CS: IP， 在 保护 模式 下 IP 变 


为 EIP， 更 关键 的 变化 是 CS 由 直接 的 代码 段 基 址 变 
为 代码 段 选择 符 ， 通 过 解析 代码 段 选择 符 可 获得 

GDT 中 指定 的 代码 段 描述 符 ， 进 一 步 解析 才能 获得 
代码 段 的 基 址 。 


还 有 两 个 变化 是 深刻 的 : 一 个 是 段 限 长 ， 力 一 
个 是 特权 级 。 


实 模式 下 的 CS 虽然 是 代码 段 的 段 基 址 ， 但 CS 
只 是 负责 看 管 代 码 段 的 起 始 位 置 ，Intel 的 CPU 没有 
设计 负责 看 管 代码 段 结尾 地 址 的 段 尾 寄 存 器 。 虽 然 
有 64 kB 的 段 长 ， 但 不 得 不 允许 其 他 段 履 新， 因为 
实际 使 用 中 经 常 出 现代 码 段 远 小 于 64 kB 的 情形 ， 
为 了 不 浪费 内 存 ， 只 好 允许 履 盖 。 











保护 模式 除了 段 基 址 之 外 ， 还 有 段 限 长 。 这 样 





ERR J SERRA PS Bar eae ta, XFS 
于 增加 了 一 个 段 尾 寄存 器 。 这 样 既 有 效 地 防止 了 对 
ABRE mo XPE SABE A HIW HERR, 
明显 增强 了 保护 作用 。 





对 主 妈 机 制 影响 深远 的 是 特权 级 。 


从 第 1 章 开 始 ， 我 们 多 次 提 到 CS 的 最 后 两 位 就 
是 特权 级 。Intel 从 硬件 上 禁止 低 特权 级 的 代码 段 的 
代码 使 用 一 些 关 键 性 的 指令 ， 如 LGDT、LLDT、 
LTR、LIDT。 男 外 ，Intel 还 提供 了 机 会 ， 人 允许 操作 
系统 的 设计 者 通过 一 些 特权 级 的 设置 ， 禁 止 用 户 进 
程 使 用 CLI、STI 等 对 掌控 局 面 至 关 重 要 的 关键 性 指 


A, 
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设计 为 最 高 特权 级 ， 把 用 户 进 程 设 计 为 最 低 特 权 
级 。 这 样 ， 操 作 系统 设计 者 融 能 做 到 让 操作 系统 内 
核 可 以 执行 一 切 指令 ， 想 做 什么 就 做 什么 。 操 作 系 
统 可 以 访问 GDT、LDT、TR， 而 GDT、LDT 是 逻辑 
地 址 形成 线性 地 址 的 关键 ， 也 就 是 说 操作 系统 能 够 
掌控 线性 地 址 ， 而 用 户 进程 则 不 能 。 用 户 进 程 只 能 
使 用 逻辑 地 址 ， 而 用 户 进 程 的 逻辑 地 址 要 由 内 核 转 
换 为 线性 地 址 。 物 理 地 址 是 由 内 核 将 线性 地 址 转换 
而 成 的 ， 不 知道 线性 地 址 就 不 知道 物理 地 址 ， 也 就 
是 说 ， 操 作 系 统 内 核实 际 上 可 以 访问 任何 物理 地 
址 。 这 样 ， 对 于 用 户 进 程 来 说 ， 它 只 能 “感觉 ”到 在 
访问 一 个 网 辑 地 址 的 内 存 空 间 ， 如 同 访 问 “ 真 实 的 
内 存 空 间 ” 一 样 ， 而 实际 的 逻辑 地 址 到 物理 地 址 的 
映射 要 由 操作 系统 内 核 来 安排 。 操 作 系 统 把 用 户 进 
程 需 要 访问 的 内 存 安排 在 内 存 的 什么 地 方 ， 完 全 是 





随心 所 欲 ， 而 用 户 进 程 甚 至 都 不 知道 实际 访问 的 物 
理 地 址 在 哪儿 。 


Linux 0.11 的 用 户 进程 线性 地 址 空间 的 设计 方 
案 是 ， 把 4 GB 的 线性 地 址 空间 等 分 为 64 份 ， 每 份 64 
MB， 每 个 进程 一 份 ， 每 个 进程 的 逻辑 地 址 空间 是 
64 MB。 也 就 是 说 ， 在 用 户 进 程 看 来 ， 有 64 MB 的 
内 存 可 以 使 用 ， 这 样 64 MBx64=4 GB。 由 于 用 户 进 
程 能 访问 的 空间 不 可 能 超出 64 MB， 每 个 进程 的 线 
性 地 址 空间 又 没有 任何 交合 ， 这 样 ， 从 理论 上 讲 ， 
在 线性 地 址 空间 的 层面 ， 任 何 用 户 进 程 之 间 的 直接 
相互 寻 址 和 访问 都 是 不 可 能 的 了 。 用 户 进 程 之 间 的 
相互 访问 都 不 可 能 ， 更 不 可 能 访问 操作 系统 内 核 
J 





这 样 ， 你 护 模式 给 操作 系统 的 设计 者 提供 了 机 





会 ， 使 操作 系统 的 设计 者 有 可 能 做 到 ， 用 户 进程 不 
能 访问 操作 系统 内 核 ， 也 不 能 相互 访问 ， 而 操作 系 
统 内 核实 际 上 能 够 访问 任何 用 户 进程 。 这 是 主公 机 
制 的 一 个 体现 。 





分 页 的 前 提 是 保护 模式 ， 也 就 是 说 ，PE 和 PG 
必须 同时 打开 ， 不 存在 没有 PE 的 PG。 可 以 说 分 页 
和 保护 是 一 体 的 。 分 页 机 制 同 样 依托 CPU 的 人 硬件， 
在 提高 了 内 存 空间 使 用 效率 的 同时 ， 也 使 操作 系统 
的 设计 者 能 够 实现 用 户 进程 之 间 不 能 互 访 ， 更 不 可 
能 访问 内 核 ， 而 内 核实 际 上 可 以 任意 访问 用 户 进 


FE o 











在 分 页 机 制 下 ， 理 论 上 使 线性 地 址 等 价 于 物理 
地 址 的 分 页 方法 只 有 一 种 。 下 面 我 们 详细 讲解 这 个 
方法 的 原理 和 操作 。 


我 们 用 一 个 简单 的 线性 方程 来 表示 线性 地 址 和 
物理 地 址 之 间 的 关系 。 


y=kx+b 


这 里 x 代表 线性 地 址 ，y 代 表 物 理 地 址 ，k 十 线 
性 地 址 和 物理 地 址 的 比例 关系 。 因 为 线性 地 址 和 物 
理 地 址 的 单位 都 是 字 市 ， 如 果 增 长 的 方 回 相同， 线 
性 地 址 和 物理 地 址 的 比例 关系 就 是 1， 也 束 是 


y=x+b 


o 
烛 


不 难看 出 ， 


N 


N 


b=0 


就 可 以 实现 


y~x 


也 就 是 物理 地 址 等 于 线性 地 址 。 


操作 系统 内 核 要 想 做 到 在 分 页 机 制 下 实现 线性 
地 址 等 于 物理 地 址 ， 束 一 定 要 把 操作 系统 内 核 分 页 
的 起 始 位 置 放 在 物理 地 址 的 起 始 位 置 ， 这 是 关键 ! 


回顾 一 下 第 1 章 的 图 1-23 以 及 6.2 节 讲 到 的 内 
容 ， 才 能 真正 地 理解 内 核 分 页 从 内 存 的 起 始 位 置 开 


始 的 深刻 意义 ， 其 作用 就 是 b=0， 使 线性 地 址 等 于 
物理 地 址 ! 





对 于 内 核 来 说 ， 要 直接 面 对 物 理 内 存 ， 最 耳 接 
的 方式 就 是 线性 地 址 和 物理 地 址 一 一 对 应 。 当 内 核 
需要 访问 内 存 的 时 候 ， 束 可 以 耳 接 访问 物理 内 存 ， 
而 不 是 像 进程 那样 ， 被 操作 系统 绕 过 来 、 统 过 去 ， 
统 得 尝 尖 转 同 ， 连 上 自己 完 葛 在 物理 内 存 中 具体 处 于 
什么 位 置 都 不 知道 。 











为 了 在 分 页 机 制 的 前 提 下 满足 这 项 要 求 ， 操 作 
系统 特别 设计 了 一 套 页 表 专 门 供 内 核 使 用 。 这 套 页 
表 的 值 刚好 可 以 使 线性 地 址 的 值 和 物理 地 址 的 值 恒 
等 映射 ， 而 且 这 个 映射 范围 不 是 局 限于 内 核 的 1 
MB 空间 本 里 ， 而 是 包含 所 有 16 MBANE], Wi 
是 说 ， 内 核实 际 上 可 以 直接 访问 任何 一 个 进程 的 内 








存 空 间 。 有 具体 方案 的 技术 细节 已 经 在 第 1 和 章 图 1-39 
至 图 1-41 以 及 6.2 节 详细 讲解 过 。 


用 户 进程 只 能 面 对 一 个 多 辑 地 址 ， 需 要 使 用 内 
存 的 时 候 ， 痛 先 转化 为 一 个 线性 地 址 ， 再 根据 内 核 
提供 的 专门 为 进程 设计 的 分 页 方案 ， 由 MMU 转 化 
为 实际 物理 地 址 。 在 这 里 ， 线 性 地 址 和 物理 地 址 的 
转换 与 直接 映射 截然 相反 。 





首先 ， 用 户 进程 内 存 页 面 的 分 配 是 从 物理 内 存 
的 高 地 址 疹 开 始 ， 随 着 程序 的 执行 癌 物理 内 存 的 低 
地 址 端 发 展 的 ， 可 以 粗略 地 认为 是 与 线性 地 址 方 问 
反 回 分 配 页 面 ， 也 可 以 粗略 地 看 成 是 k=-1， 而 且 b 
目 然 不 可 能 为 零 。 操 作 系 统 完全 根据 多 进程 实际 运 
行 需要 给 进程 临时 分 配 页 面 ， 页 面 分 配 在 物理 内 存 
的 什么 地 方 事先 完全 无 法 预料 ， 准 确 地 说 ， 束 是 操 














作 系 统 内 核 也 无 法 预料 ， 看 上 去 很 像 随机 分 配 页 
面 。 这 里 束 充 分 显示 了 内 核 这 个 主子 直接 操作 、 定 
理 内 存 ， 对 全 部 内 存 范 围 有 使 用 管理 权限 ， 知 道 每 
一 个 进程 的 实际 内 存 完 葛 分 配 在 哪里 。 同 时 ， 也 充 
分 体现 了 用 户 进 程 一 一 奴才 ， 不 知道 自己 实际 使 用 
的 内 存在 哪里 。 内 核 代 码 及 所 有 进程 的 物理 内 存 分 
布 完全 由 内 核 掌 控 ， 实 现 了 主 奴 机 制 。 














具体 技术 细节 已 经 在 6.3 节 和 6.4 节 详细 讲解 


J 


图 9-2 是 内 核 及 用 户 进 程 分 页 的 原理 示意 图 。 
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图 9-2 内 核 及 用 户 进程 分 页 示意 图 


9.3.2 ”特权 级 








特权 级 主要 是 依托 CPU 硬件 提供 的 保护 模式 ， 
着 眼 点 在 “ 段 ?， 在 所 有 的 段 选择 符 的 最 后 两 位 标识 
特权 级 ， 最 终 影响 的 是 段 选 择 符 诀 定 的 段 。 这 些 段 
选择 符 包 括 CS、SS、DS、ES、FS 和 GS。 特 权 级 影 
啊 的 范围 是 “ 段 ?， 这 是 关键 点 ! 











对 于 Linux 操 作 系 统 而 言 ， 通 第 所 说 的 内 核 
态 、 用 户 态 ， 准 确 的 说 法 是 茶 个 代码 段 、 东 个 数据 
段 或 者 茶 个 栈 段 ..…… 当 前 的 特权 级 或 者 是 0 级 ， 也 
就 是 内 核 特权 级 ;或 者 是 3 级 ， 也 融 是 用 户 特 权 
级 。 


内 核 特 权 级 可 以 在 任何 条 件 下 执行 所 有 的 指 
令 。 操 作 系统 能 够 做 到 用 户 特 权 级 不 能 执行 的 那些 





可 能 颠覆 内 核 特权 级 的 指令 。 就 CPU 硬件 而 言 ， 既 
可 以 使 所 有 代码 都 处 于 内 核 特 权 级 ， 也 可 以 使 所 有 
代码 都 处 于 用 户 特 权 级 ， 如 图 9-3 所 示 。 


0 一 一 内核 特权 级 


3 一 一 用 户 特权 级 


图 9-3 内 核 与 用 户 特权 级 示意 图 


但 是 ， 一 旦 计算 机 中 的 所 有 代码 都 处 于 用 户 特 
权 级 ， 高 特权 级 的 指令 了 束 永远 无 法 使 用 了 ， 这 也 恰 
恰 是 特权 级 设计 者 的 初衷 。 另 外 ， 所 有 代码 都 处 于 
同一 个 特权 级 ， 很 容易 出 现 互 访 和 上 履 兰 的 混乱 现 
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操作 系统 的 设计 者 都 是 顶级 聪明 的 人 人， 当然 不 
会 做 这 种 巧 事 。 他 们 会 把 操作 系统 内 核 代 码 设 计 为 
高 特权 级 ， 把 用 户 进程 代码 设计 为 低 特权 级 。 这 
， 内 核 束 可 以 执行 所 有 的 指令 ， 而 用 户 进 程 则 不 
， 骨 一 次 体现 了 主 妈 机 制 |。 
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9.3.3 Pi 








操作 系统 和 用 户 程 序 运 行 起 来 后 ， 计 算 机 中 的 
用 户 特 权 级 和 内 核 特权 级 的 代码 、 数 据 频 繁 交 蔡 出 
现 ， 这 是 因为 有 特权 级 的 转换 。Intel 的 CPU 提 供 了 
几 种 转换 方法 ，Linux 0.11 使 用 的 主要 方法 是 中 
断 。 通 过 中 断 和 中 断 返 回 ，Linux 0.11 实 现 了 特权 
级 之 间 的 转换 。 图 9-4 形 象 地 表示 了 中 断 所 导致 的 
特权 级 翻转 。 








下 面 我 们 详细 讲解 为 什么 中 断 技 术 能 实现 特权 
级 的 转换 。 








在 我 们 看 来 ， 计 算 机 中 最 重要 的 三 件 事 就 是 执 
行 序 、 可 识别 、 可 预见 。 
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序 执行 序 的 分 类 示意 图 。 
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图 9-4 中 断 导 致 特权 级 翻转 示意 图 
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图 9-5 程序 执行 序 的 分 类 示意 图 


首先 ， 在 计算 机 里 的 执行 序 有 顺序 和 分 文 两 


种 。 顺 序 执行 序 是 靠 CPU 中 的 程序 计数 器 PC 自动 累 
加 实现 的 。 每 执行 一 条 指令 ，PC 束 自动 累加 ，PC 
和 指令 指针 IP 或 EIP 联 手 ， 形 成 顺序 执行 序 。 除 此 
之 外 ， 还 有 分 文 ， 分 支 又 分 无 返回 分 文 和 有 返回 分 
文 。 无 返回 分 文 就 是 跳 转 ， 可 以 通过 某 种 条 件 进 行 
跳 转 ， 跳 转 以 后 不 会 返回 。 另 一 类 就 是 跳 转 之 后 还 
要 返回 ， 这 就 是 函数 调用 和 中 断 。 更 广义 的 说 法 是 
调用 子 程序 。 这 种 情况 下 执行 完 子 程序 的 操作 之 

后 ， 还 要 回 到 调用 指令 的 下 一 行 继续 执行 。 回 到 调 
用 指令 的 下 一 行 的 前 提 是 必须 满足 "能够 回 到 调用 

指令 的 下 一 行 ”， 因此 需要 保留 执行 调用 指令 的 状 
态 。 这 就 是 所 谓 的 现场 保护 ， 实 质 就 是 保存 标志 着 
CPU 和 内 存 运 行 状态 的 相关 寄存 器 的 值 。 等 到 调用 
结束 后 ， 再 恢复 现场 ， 返 回调 用 指令 的 下 一 行 继续 
执行 。 从 这 个 角度 看 ， 中 断 和 函数 有 非常 像 的 地 
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设计 者 是 可 预见 的 ， 对 于 函数 调用 的 保护 动作 也 是 
可 预见 的 。 中 断 拉 术 最 初 是 因为 解决 外 设 便 件 的 IO 
问题 而 发 明 的 ， 后 来 又 出 现 了 模仿 硬件 中 断 的 拉 术 
PRA AHN Ai, AEA. faz, F 
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可 能 会 有 一 个 新 的 事件 在 原 有 的 执行 序 不 可 预见 的 
情况 下 切 进来 ， 打 断 原 有 的 执行 序 ， 所 以 叫 “中 
Wt” o 








由 于 中 断 的 发 生 不 可 预见 ， 保 护 现场 的 任务 不 
可 能 由 程序 员 完 成 ， 只 能 由 CPU 硬件 完成 ， 实 际 上 
相当 于 是 “硬件 的 calj”。 回 想 一 下 第 2 章 讲 到 的 如 下 





代码 : 


/代码 路 径 : kernel/fork.c 

int copy_process Cint nr,long ebp,long edi,long esi,long gs,long none, 
long ebx,long ecx,long edx, 

long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss ) 


最 后 一 行 参数 long eip,long cs, long eflags,long 
esp,long ss 在 调用 之 前 根本 找 不 到 传 参 。 不 论 是 源 
代码 还 是 反 汇 编 代 码 ， 都 无 法 找到 传 参 的 代码 ， 也 
看 不 到 任何 压 栈 动作 或 将 其 他 数据 变 成 栈 的 操作 ， 
然而 却 能 正确 运行 ， 实 在 让 人 费解 ， 原 因 就 是 
copy_process 的 调用 源 于 0x80 中 断 ， 这 5 个 参数 是 
CPU 硬件 压 栈 。 注 意 ， 这 5 个 参数 的 顺序 与 Intel IA- 
32 手 册 中 介绍 的 CPU 硬件 压 栈 顺 序 完全 一 致 。 这 融 











是 中 断 的 特征 。 中 上 断 服务 程序 执行 结束 ， 目 然 也 
要 “硬件 的 ret” 


iret. 





不 知 大 家 是 否 发 现 ， 上 面 讲解 的 中 断 执行 过 程 
隐 含 着 另 一 个 特点 ， 束 是 中 断 与 普通 的 call 有 着 很 
大 的 不 同 。 普 通 的 call 似 乎 是 治 痢 内 存 的 地 址 “ 平 
着 ”“ 滑 ”到 被 调用 位 置 。 中 断 则 不 然 ， 似 乎 是 脱离 
了 内 存 ， 通 过 CPU 硬件 “ 翻 ? 到 内 存 中 另 一 处 中 断 服 
务 程序 的 位 置 。 

















通 call 的 这 个 特点 对 于 编写 一 般 的 程序 没有 
任何 问题 ， 但 对 于 编写 操作 系统 这 样 的 底层 系统 软 
件 却 会 市 来 致命 的 问题 。 当 用 户 需 要 使 用 内 核 的 系 
统 调用 代码 时 ， 如 果 用 普通 的 call 束 能 实现 ， 就 等 
价 于 用 户 程 序 可 以 随意 访问 操作 系统 内 核 ， 能 访问 
就 有 可 能 修改 ， 甚 至 可 能 窗 盖 。 这 严重 背离 了 主 妈 














机 制 ， 必 将 导致 整个 系统 混乱 。 


中 断 通 过 CPU 硬件 “ 翻 ? 到 中 晰 服务 程序 的 特征 
引起 了 操作 系统 设计 者 的 注意 。 当 中 断 通 过 CPU 的 
人 硬件 “ 翻 *? 时 ，CPU 硬 件 的 设计 者 借 此 机 会 让 CPU 翻 
转 了 各 个 段 的 特权 级 ， 使 中 断 成 为 用 户 特 权 级 和 内 
核 特 权 级 之 间 翻 转 的 阶梯 。 除 此 之 外 ， 中 断 技术 还 
有 一 个 重要 的 特征 ， 就 是 能 够 让 硬件 的 信号 直接 切 
进来 。 对 操作 系统 的 调度 而 言 ， 最 重要 的 就 是 时 钟 
H ET 





如 果 没 有 时 钟 中 断 ， 可 靠 的 进程 调度 是 不 可 想 
象 的 。 那 样 的 话 ， 操 作 系 统 只 能 设计 成 与 用 户 进 程 
协商 CPU 的 使 用 权 ， 只 能 等 每 用 户 进 程 日 觉 目 愿 把 
CPU 的 使 用 权 交 还 ， 别 无 他 法 。 











有 了 人 硬件 的 时 钟 中 断 就 完全 不 一 样 了 。 时 钟 中 
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与 进程 协商 ， 时 间 一 到 ， 二 话 不 说 ， 强 行将 进程 的 
执行 序 斩 断 ， 和 夺回 CPU 的 使 用 权 ， 行 使 主子 的 特 
权 ， 体 现 主 妈 机 制 。 


9.4 ”建立 主 妈 机 制 的 决定 性 因 系 一 一 
FEAL 


到 此 为 止 ， 主 妈 机 制 似乎 已 经 表述 得 很 好 了 。 
只 是 有 一 个 问题 仍然 无 法 解释 : 用 户 程 序 是 程序 ， 
操作 系统 也 是 程序 ， 用 的 是 同一 个 CPPU、 同 一 套 指 
令 集 ， 为 什么 操作 系统 内 核 程 序 能 用 的 指令 ， 用 户 
程序 束 不 能 用 呢 ? 答案 似乎 是 内 核 的 特权 级 比 用 户 
程序 的 特权 级 局 。 进 一 步 问 : 为 什么 内 核 程序 能 获 
得 局 特权 级 ， 而 用 户 程 序 就 不 能 呢 ? 











我 们 认为 ， 关 键 的 点 是 和 完 机 ! 


计算 机 开机 局 动 的 时 候 是 实 模式 ， 实 模式 没有 
特权 级 的 概念 。 这 时 操作 系统 内 核 开始 加 载 。 正 和 


情况 下 ， 此 时 不 应 该 有 BIOS、 操 作 系 统 以 外 的 任何 
程序 。 当 操作 系统 的 启动 程序 打开 PE 的 时 候 ， 特 权 
级 状态 必须 是 最 高 特权 级 ， 否 则 ， 有 一 部 分 指令 将 


永远 无 法 使 用 。 











这 是 非常 关键 的 时 刻 ! 操作 系统 的 设计 者 就 是 
利用 这 个 最 有 利 的 时 间 ， 以 时 间 换 特权 ， 先 霸占 所 
有 特权 ， 并 充分 利用 这 些 特 权 ， 创 建 进程 。 因 为 所 
有 的 进程 都 是 操作 系统 直接 或 间接 创建 的 ， 所 以 ， 
操作 系统 有 充分 的 条 件 和 机 会 把 进程 的 特权 级 降 
低 。 一 旦 进程 的 特权 级 被 降低 ， 束 再 也 无 法 翻 号 ， 
除非 操作 系统 程序 代码 设计 错误 ， 误 把 进程 的 特权 
级 提 上 来 。 显 然 ， 操 作 系 统 设计 者 会 仔细 审查 这 类 
错误 ， 并 认真 测试 ， 消 灭 这 闫 错误 。 假 如 操作 系统 
的 代码 疫 有 这 类 错误 ， 进 程 一 旦 被 创建 ， 就 再 也 无 











法 获得 内 核 特 权 级 ， 只 能 终生 为 奴 。 由 此 可 见 ， 掌 
握 先 机 对 操作 系统 主 奴 机 制 的 形成 有 着 决定 性 的 作 
用 。 





一 些 恶意 程 序 进 入 计算 机 的 时 机 虽然 晚 于 操作 
系统 ， 但 它们 会 想方设法 利用 操作 系统 设计 上 的 一 
切 可 以 利用 的 漏 将 ， 变 被 动 为 主动 ， 抢 占 先 机 。 一 

旦 掌 握 先 机 ， 马 上 获得 最 融 特 权 级 ， 束 可 以 为 所 欲 
为 …... 有 一 类 病毒 ， 束 通过 这 一 点 ， 利 用 操作 系统 
的 漏洞， 想 办 法 驻 留 到 便 盘 的 系统 引导 区 ， 其 至 是 
BIOS。 大 家 根据 本 书 前 面 讲解 的 原理 ， 就 能 理解 ， 
BIOS 和 便 盘 的 系统 引导 区 程序 是 先 于 操作 系统 进入 
内 存 的 。 这 类 病毒 卓然 束 完 于 操作 系统 进入 了 内 
存 ， 一 旦 它们 抢占 了 先 机 ， 获 得 了 最 融 特 权 级 ， 操 
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9.5 “软件 和 硬件 的 关系 


计算 机 分 为 主机 和 外 设 。 主 机 包 插 CPU、 和 内存 
和 总 线 ; 除了 主机 之 外 的 硬盘、 软驱 、 光 驱 、 显 示 
釉 、 网 卡 等 都 是 外 设 。 因 为 ， 软 件 编程 无 法 直接 控 
制 总 线 ， 所 以 ， 我 们 只 关注 主机 中 的 CPU 和 内 存 。 





主机 进行 的 是 运算 ; 外 设 进行 的 是 数据 的 输 
入 、 输 出 和 数据 的 断 电 你 存 。 





从 根本 上 讲 ， 用 户 使 用 计算 机 是 为 了 解决 用 户 
的 运算 问题 。 用 户 运算 的 直接 体现 就 是 用 户 应 用 程 
序 。 从 操作 系统 的 角度 看 ， 运 行 中 的 用 户 应 用 程序 
就 是 用 户 进 程 。 可 以 说 ， 用 户 进程 代表 了 用 户 的 运 
算 。 

















用 户 的 运算 需要 外 设 的 文 持 ， 首 先 需 要 键盘 、 
便 盘 、 网 络 这 类 外 设 将 应 用 程序 及 圾 要 处 理 的 数据 
得 入 主机 进行 运算 。 运 算 的 结果 需要 显示 左 、 打 印 
机 等 外 设 输出 ， 需 要 便 盘 等 外 设 进 行 断 电 保 人 在 和 转 
移 ， 或 者 驱动 其 他 设备 进行 工作 。 以 便 盘 为 例 ， 操 
作 系 统 将 硬盘 上 存储 的 数据 映射 为 文件 ， 这 些 是 我 
们 熟知 的 。 进 一 步 拓 展 文件 的 概念 ， 从 外 设 上 的 数 
扼 拓 展 到 外 设 本 身 ， 如 键 租 、 显 示 喜 也 被 拓展 为 字 
符 设 备 文件 。 可 以 说 ， 文 件 代 表 用 户 使 用 的 外 设 。 











我 们 先 展开 讲解 进程 ， 再 展开 讲解 文件 。 


9.5.1 非 用 户 进 程 一 一 进程 0、 进 程 1、shell 
进程 





我 们 先 来 思考 一 个 问题 ， 所 有 的 操作 系统 都 要 





有 用 户 使 用 界面 ， 就 是 所 谓 的 shell。Linux 0.11 的 
shell 是 由 shell 进 程 而 不 是 由 操作 系统 内 核 承 担 的 。 
shell 明 显 是 一 个 操作 系统 的 功能 ， 为 什么 不 是 由 内 
核 而 是 由 进程 承担 ? 


仔细 思考 一 下 ， 我 们 会 发 现 ， 如 果 Linux 操 作 
系统 只 是 用 于 个 人 计算 机 ， 由 内 核 承 担 shell 似 乎 也 
没什么 不 可 以 。 考 虑 到 Linux 在 服务 器 领域 有 很 大 
的 友 展 空间 ， 服 务 堪 的 操作 系统 有 多 shell 的 需求 ， 
这 样 看 来 ， 内 核 承 担 shell 不 划算 ， 最 好 是 由 进程 承 
担 。 





然而 ，shell 的 进程 显然 不 能 由 普通 的 用 户 应 用 
程序 承担 。 比 如 由 一 个 围棋 程序 承担 shell， 显 然 古 
不 合适 的 。 围 棋 程 序 本 里 是 应 用 程序 ， 和 需要 shell 加 
载 。 围 棋 程 序 自身 成 为 shell， 看 上 去 这 个 操作 系统 








从 始 至 终 一 直 有 一 个 不 可 退出 的 围棋 ， 感 觉 很 怪 
异 。 如 果 允 许 这 样 的 围棋 程序 退出 ， 就 更 可 怕 了 。 
一 旦 围棋 程序 结束 退出 了 ， 操 作 系 统 就 再 也 没有 
shell 了 。 没 有 shell 的 操作 系统 就 是 一 个 不 可 使 用 的 
操作 系统 ， 有 什么 存在 价值 呢 ? 





由 此 可 见 ，shell 必 须 是 一 个 专门 为 操作 系统 配 
套 设 计 的 特殊 进程 ， 从 开始 接受 用 户 使 用 到 关机 ， 
都 不 应 该 退出 。 








shell 的 本 质 是 用 户 界 面 程序 ， 和 掌控 的 是 显示 
屏 、 键 盘 等 ， 这 些 都 是 外 设 。Linux 操 作 系 统 的 进 
程 创建 机 制 是 由 父 进程 创建 子 进程 。 由 此 可 推断 ， 
shell 的 父 进程 必须 有 使 用 外 设 的 能 力 以 及 可 用 的 外 
设 环 境 ， 可 以 推出 父 进程 就 应 该 是 进程 1 那样 的 进 
程 。 外 设 肯定 是 由 主机 掌控 的 ， 所 以 ， 所 有 进程 都 





必须 有 在 主机 中 运行 的 能 力 ， 可 以 推出 进程 1 的 父 
进程 融 应 该 是 进程 0 那样 的 进程 。 








现在 ， 我 们 可 以 看 得 更 清楚 ， 第 2、3、4 章 讲 
解 的 进程 0、 进 程 1、shell 进 程 ， 就 分 别 对 应 主机 、 
外 设 、 特 殊 的 外 设 一 一 用 户 界面 。 这 三 部 分 也 恰恰 
是 计算 机 宏观 构成 的 三 部 分 。 由 此 可 见 这 三 个 进程 
的 划分 寓意 深刻 ， 如 果 将 三 个 进程 合并 为 一 个 进 
程 ， 就 不 能 清晰 地 表示 这 种 结构 。 图 9-6 表 示 了 进 
程 0、 进 程 1 及 shell 进 程 所 对 应 的 硬件 。 








计算 机 人 
| ae ; 
E ] 
| 主机 | 外 设 | 
[CPU/ 内 存 | | 键盘 /软盘 /硬盘 ……| | 用 户 界面 ] 
| 进程 管理 /内 存 管理 | 文件 系统 | 一 ~ | 字符 设备 文件 


进程 0 创建 4 进程 1 | 创建 | shell 进 Fi 


图 9-6 进程 与 硬件 的 对 应 关系 示意 图 


9.5.2 ”文件 与 数据 存储 


从 前 面 革 节 的 内 容 不 难 肥 现 ， 里 然 文件 系统 涉 
及 的 代码 最 多 ， 几 乎 占 了 总 代码 量 的 一 半 ， 但 相对 
而 言 ， 文 件 系统 是 最 容易 理解 的 。 以 人 硬盘 为 例 ， 文 
件 映射 便 盘 上 存储 的 数据 ， 人 硬盘 的 存储 空间 非常 
大 ， 远 远大 于 内 存 的 存储 量 。 但 说 到 抵 ， 文 件 也 就 
是 一 个 数据 的 存储 ， 人 硬盘 可 以 看 做 计算 机 的 数据 仓 
E. FFG LTE RIA ERS, (AN Pie OE 
言 ， 要 简单 得 多 。 而 且 楷 杂 的 原因 主要 是 硬盘 的 存 
EIER, MARERE” o URH find FP E 
理 方 法 ， 所 需要 的 管理 数据 量 就 很 大 ， 而 这 部 分 数 
据 既 占用 了 硬盘 的 空间 ， 驻 不 是 用 户 数据 。 为 了 尽 
可 能 减少 这 部 分 数据 在 硬盘 空间 的 占有 量 ， 用 了 最 少 
的 管理 数据 管理 最 多 的 用 户 数据 ， 操 作 系 统 的 设计 























者 提出 了 超级 块 、i 节 点 、 逻 辑 块 位 图 、i 节 点 位 图 
等 一 整套 的 管理 结构 。 而 且 这 些 结构 还 要 涉及 进 

程 ， 导 致 文件 系统 变 得 非常 楷 杂 。 但 总 的 来 说 ， 文 
件 代表 存储 的 数据 (也 代表 设备 ) ， 所 以 相对 于 运 


算 而 言 ， 还 是 简单 得 多 。 








LAE. WERE. RK: 计算 级 存储 、 存 储 级 
存储 、 过 湾 态 


主机 中 有 内 存 ， 外 设 中 有 人 硬盘， 表面 上 看 ， 两 
者 的 功能 都 是 存储 ， 为 什么 还 分 成 主机 和 外 设 ? 通 
党 的 说 法 是 ， 内 存 速度 快 、 价 格 咒 、 容 量 小 、 不 站 
WHR, MERE RF BPAY 
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进一步 退 问 : 如 果 差 别 仅 仅 是 断 电 你 存 ， 为 什 
么 用 两 种 截然 不 同 的 管理 方式 来 管理 ? 操作 系统 管 


PRA PALA EERE. OP. REAR R... HE 
BASIN Bait, TMA eR. PS A 
图 、 块 .…… 差 别 非 党 大 。 











从 外 形 上 看 ，CPU 和 内 存 是 两 种 完全 不 同 的 器 
件 。 实 际 上 ， 它 们 必须 联合 起 来 才能 完成 计算 机 中 
最 重要 的 工作 一 一 计算 。 也 就 是 说 ， 计 算 发 生 在 
CPU 与 内 存 之 间 ， 即 发 生 在 主机 中 ， 仅 有 CPU 是 无 
法 完成 计算 的 。CPU 计 算 所 需 的 指令 在 内 存 里 ， 计 
算 结果 也 要 放 在 内 存 中 。 不 仅 如 此 ， 更 重要 的 是 ， 
复杂 的 计算 ，CPU 不 可 能 用 一 个 指令 完成 ， 需 要 在 
内 存 中 安排 复杂 的 算法 。 例 如 ， 把 一 个 复杂 的 四 则 
运算 式 转化 为 逆流 兰 式 后 ， 在 内 存 中 用 栈 操 作 的 方 
式 形成 算法 ，CPU 和 内 存 联合 操作 ， 最 终 取 得 计算 
结果 。 在 这 个 过 程 中 ， 我 们 很 难 否 认 内 存 也 在 进 
































行 “计算 "， 内 存 有 存 侍 功能 ， 更 有 计算 功能 ， 是 计 
算 级 存储 。 再 看 看 硬盘 ， 虽 然 功 能 也 是 存储 ， 但 丝 
毫 看 不 出 计算 的 迹象 ， 是 非常 纯粹 的 存储 ， 是 存储 
级 存储 。 








计算 级 存储 比 存 储 级 存储 多 了 “计算 ”。 计 算 比 
存储 复 森 ， 管 理 信息 目 然 要 多 一 些 。 同 样 是 管理 文 
件 ， 同 样 是 用 i 节 扣 这 套 方 法 ， 内 存 中 的 文件 管理 信 
息 要 比 硬盘 上 的 多 出 一 些 。 硬 盘 上 的 文件 管理 信息 
就 是 为 了 存储 ， 找 得 到 、 不 出 错 就 行 。 内 存 中 的 文 
件 管理 信息 就 不 一 样 了 ， 际 了 这 些 要 求 外 ， 还 要 执 
行 得 找 等 操作 。 碍 找 本 喘 束 是 计算 ， 所 以 内 存 中 的 
管理 信息 是 市 有 “计算 ”意义 的 文件 管理 信息 。 人 硬盘 
上 的 文件 定理 信息 残 是 一 本 简单 的 数据 “库存 账 ”。 
ft AS PANG BRIS, BTiS REEL 



































机 ， 所 以 便 盘 不 需要 额外 的 运算 管理 信息 。 





让 我 们 上 升 一 个 高 度 再 来 看 看 计算 。 可 以 看 出 
这 里 说 的 计算 也 可 以 分 为 两 类 : 一 类 计算 是 用 户 进 








程 的 计算 ， 也 就 是 用 户 程 序 的 计算 ; 为 一 类 计算 是 
内 核 为 文件 系统 的 运行 所 做 的 计算 ， 这 类 计算 与 用 











户 进程 的 计算 没有 直接 的 关系 。 为 了 更 容易 看 清 
楚 ， 我 们 称 参与 用 户 进 程 计算 的 内 存 为 全 运算 存 
储 ， 称 参与 内 核 为 文件 系统 的 运行 所 做 运算 的 内 存 
为 半 运 算 和 存储 ， 称 在 内 存 中 完全 模拟 外 设 、 没 有 任 
何 运 算 的 内 存 为 无 运算 存储 。 














有 了 全 运算 存储 、 半 运算 存储 、 无 运算 存储 的 
概念 ， 就 容易 理解 为 外 一 个 概 倪 一 一 缓冲 区 。 





缓冲 区 在 内 存 ， 是 介 于 全 运算 存储 和 无 运算 存 





储 之 间 的 过 小 态 。 并 且 ， 在 操作 文件 的 过 程 中 ， 如 
在 目录 文件 中 碍 找 革 个 目录 项 的 操作 ， 也 是 在 缓冲 
区 完成 的 。 由 于 其 具体 操作 是 进行 字符 串 比 较 ， 肯 
定 是 一 个 运算 过 程 。 这 些 运 算 明 显 的 不 是 用 户 程序 


的 运算 ， 所 以 缓冲 区 是 半 运 算 人 存储 。 


























用 这 个 观点 审视 内 存 ， 可 以 肥 现 内 存 中 的 “ 超 
级 块 管理 表 ” 和 和 市 点 管理 表 ”( 它 们 常 驻 于 内 核 数 
HKO 、“ 逻 辑 块 位 图 ?和 *i 节 点 位 图 ”( 它 们 常 驻 于 
绥 冲 区 ) 等 文件 系统 管理 结构 明显 也 是 服务 于 半 运 
算 的 。 我 们 可 以 把 这 些 管理 结构 所 占 的 内 存 空间 
《无 论 是 处 于 内 核 数 据 区 还 是 缓冲 区 ) 统称 为 文件 
系统 专用 绥 冲 区 。 对 比 通 常 意义 的 缓冲 区 ， 我 们 可 
以 看 得 更 清楚 ， 两 个 缓冲 区 部 由 内 核 控 制 、 操 作 。 
通常 意义 的 缓冲 区 针对 的 是 进程 ， 文 件 系 统 专用 绥 


























冲 区 针对 的 是 文件 系统 。 


有 反 过 来 看 ， 如 果 没 有 这 两 个 缓冲 区 ， 外 设 的 数 
据 与 内 存 和 直接 交互 ， 操 作 系 统 束 得 在 本 应 是 用 户 进 
程 目 己 进行 计算 的 全 运算 存储 空间 中 进行 针对 文件 
系统 的 但 找 等 计算 ， 全 运算 与 半 运 算 搅 在 一 起 非常 
混乱 。 更 厅 烦 的 是 ， 用 户 进 程 的 全 运算 源 于 用 户 程 
序 的 代码 ， 文 件 系 统 的 半 运 算 源 于 操作 系统 内 核 代 
码 ， 内 核 代 码 和 用 户 代 码 处 理 的 数据 都 要 在 用 户 进 
程 所 属 的 内 存 空 间 操作 ， 有 悖 于 主公 机 制 。 
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同样 的 文件 时 ， 可 以 共享 缓冲 区 中 的 文件 。 没 有 组 
冲 区 ， 只 能 每 个 进程 读 目 己 的 文件 ， 这 可 能 造成 内 
存 中 有 同一 文件 的 多 份 复 制 。 换 名 话说 ， 绥 冲 区 共 





译 有 内 存 中 只 有 一 份 复制 的 含义 。 





用 上 述 概念 考察 一 下 虚拟 始 ， 不 难看 出 虚拟 盘 
就 是 在 内 存 中 简单 模拟 外 设 。 这 类 内 存 空间 的 特征 
是 无 运算 存储 。 这 类 闪存 空间 映射 的 不 是 文件 ， 而 
征 外 设 ， 比 如 软盘 。 不 论 这 个 软盘 实际 存储 的 数据 
有 多 少 ， 哪 怕 只 有 1 kB， 也 要 把 整个 软盘 映射 过 
来 ， 显 然 浪费 了 内 存 空间 。 叉 由 于 虚拟 盘 是 无 运算 
存储 ， 所 以 用 户 进 程 真 正 使 用 的 时 候 ， 还 要 经 过 半 
运算 人 存储 倒 一 遇 手 ， 所 以 应 义 量 不 用 无 运算 存储 。 

















2. 绥 冲 区 的 设计 指导 思想 


在 设计 操作 系统 的 缓冲 区 时 ， 要 求 确保 多 进程 
读 写 数据 的 正确 性 和 尽 可 能 高 的 效率 。 内 存 之 间 的 
数据 交互 速度 比 内 存 与 硬盘 之 间 的 数据 交互 速度 快 
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(1) 要 使 数据 的 读 写 有 序 : (2) 让 数据 在 缓冲 区 
中 停留 的 时 间 尽 可 能 长 。 能 用 缓冲 区 中 的 数据 ， 残 
尽量 用 绥 冲 区 中 的 数据 。 绥 冲 区 中 实在 没有 用 户 进 
程 所 需要 的 数据 了 ， 和 再 从 硬盘 上 读 取 数据 到 缓冲 

区 。 操 作 系 统 中 与 缓冲 区 有 关 的 设计 ， 都 二 接 或 间 
接地 体现 了 这 个 指导 思想 。 











为 了 实现 这 个 设计 指导 思想 ，Linux 0.11 设 计 
了 一 套数 据 和 相关 的 函数 ， 这 些 数据 包括 
hash table、b count. b lock, b dirt. *b data, 


b_dev. b_blocknr, b_uptodate, b_wait...... 


用 *b_data 指 癌 与 进程 进行 数据 交互 的 缓冲 块 ， 


用 b_dev 和 b_blocknr 指 定 将 要 读 写 的 文件 的 一 个 数 
据 块 所 在 的 设备 号 和 块 号 〈 以 后 简称 为 硬盘 块 ) ， 
并 将 这 一 对 缓冲 块 、 硬 盘 块 挂 接 在 hash_table 上 ， 形 
成 绑 定 关系 。 依 此 类 推 ，hash_table 将 所 有 需要 读 写 
的 硬盘 块 与 对 应 的 缓冲 块 绑 定 ， 形 成 如 图 9-7 所 示 
的 管理 关系 。 








图 9-7 缓冲 区 、 哈 希 表 与 便 盘 块 的 管理 对 应 天 
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当 用 户 进 程 要 进行 文件 读 写 操作 时 ， 并 不 一 定 


是 对 文件 的 所 有 数据 都 要 读 写 ， 操 作 系统 通过 对 文 
件 的 分 析 ， 确 定 要 操作 哪个 硬盘 块 ， 用 b_dev 和 
b_blocknr 标 识 。 为 了 最 大 限度 地 提高 缓冲 块 数据 的 
复 用 性 ， 此 前 的 文件 读 写 任务 完成 后 ， 与 硬盘 块 对 
应 的 缓冲 块 中 的 数据 不 会 立即 被 清除 掉 。 所 以 ， 执 
行 新 的 文件 读 写 任务 时 ， 操 作 系统 会 先 在 缓冲 区 的 
管理 结构 hash_table 中 查找 ， 看 看 记载 的 和 绥 冲 块 对 
应 的 硬盘 块 与 操作 系统 确定 需要 读 写 的 人 硬盘 块 是 否 
相 吻 合 ， 只 要 相 吻 合 ， 就 证 明 需 要 操作 的 硬盘 块 的 
数据 ， 很 有 可 能 不 需要 读 盘 了 。 根 据 “* 能 用 缓冲 区 
中 的 数据 ， 就 尽量 用 缓冲 区 中 的 数据 ?这 个 指导 思 
想 ， 能 用 现成 的 数据 就 用 现成 的 。 











然而 ，b_dev 和 b _ blocknr 这 两 个 字段 吻合 ， 只 
能 说 明 绥 冲 区 中 有 操作 系统 需要 操作 的 人 硬盘 块 对 应 





的 缓冲 块 ， 并 不 等 于 缓冲 块 中 的 数据 一 定 可 以 使 
用 ， 因 为 这 个 缓冲 块 中 的 数据 有 可 能 已 经 无 效 。 比 
如 说 某 个 文件 的 内 容 已 经 全 部 被 删除 ， 那 么 这 个 文 
件 “ 残 存 ” 的 缓冲 岂 中 的 数据 还 在 ， 绥 冲 岂 与 硬盘 块 
的 绑 定 关系 也 在 ， 但 已 经 不 能 再 使 用 了 。 














为 了 解决 这 个 问题 ， 操 作 系 统 设 置 了 一 个 
b_uptodate。 当 它 的 值 为 1 时 ， 说 明 缓冲 块 中 的 数据 
是 有 效 的 ， 可 以 直接 使 用 ， 不 用 再 次 读 盘 了 ; WR 
为 0， 说 明 该 缓冲 块 中 的 数据 无 效 ， 不 能 直接 使 
用 ， 还 需要 从 硬盘 块 中 读 出 新 的 数据 ， 绥 冲 块 才能 
使 用 。b_uptodate 对 于 读 操 作 尤 为 重要 。 在 使 盘 块 
中 的 数据 读 入 绥 冲 块 后 ， 操 作 系 统 的 中 断 服 务 程序 
就 把 b_uptodate 设 置 为 1， 表 示 该 缓冲 块 中 的 数据 此 
时 已 经 有 效 。 在 新 申请 一 个 绥 冲 块 时 ，b_uptodate 











就 会 被 设置 为 0， 表 示 绥 冲 块 中 的 数据 无 效 。 





在 操作 系统 设计 者 看 来 ， 用 户 进程 将 数据 写 
盘 ， 其 实 就 是 操作 系统 将 用 户 进程 的 数据 写 入 缓冲 
区 。 组 冲 区 中 的 数据 什么 时 候 真正 写 到 硬盘 上 去 ， 
由 操作 系统 决定 。 换 名 话说， 用 户 进程 的 数据 写 盘 
是 分 两 步 进行 的 : 第 一 步 ， 操 作 系 统 将 用 户 数据 写 
入 缓冲 区 ， 并 尽 可 能 停留 在 缓冲 区 ， 尽 可 能 复 用 : 
第 二 步 ， 操 作 系 统 适 时 写 盘 。 这 两 步 通常 不 是 连续 
执行 的 ， 中 间 可 能 会 有 一 个 停顿 。 为 了 让 操作 系统 
在 停顿 后 仍 能 够 高 效 地 同步 缓冲 区 中 的 数据 ， 避 免 
不 必要 的 同步 ， 操 作 系 统 设计 者 设计 了 b_dirt。 其 
作用 就 是 标识 此 前 操作 系统 曾 将 用 户 进程 的 数据 写 
入 缓冲 块 中 ， 改 变 了 缓冲 块 中 的 数据 。 将 其 值 设 置 
为 1， 表 示 所 管理 的 缓冲 块 中 的 数据 需要 同步 到 硬 
































盘 上 。 等 到 操作 系统 将 缓冲 块 中 的 数据 同步 到 硬盘 
后 ， 把 该 字段 改 为 0。 


注意 ， 与 操作 和 读 操 作 还 不 太一 样 。 如 采 征 读 
操作 ， 而 且 组 冲 块 中 没有 现成 的 数据 ， 就 只 有 从 硬 
盘 块 中 进行 读 取 ， 而 且 是 立即 读 取 ， 因 为 用 户 还 在 
等 得 使 用 这 些 数 据 。 写 操作 则 不 同 ， 用 户 进 程 并 不 
知道 所 谓 的 写 盘 其 实 只 是 将 数据 写 到 缓冲 块 中 ， 绥 
冲 块 中 的 数据 什么 时 候 同 步 到 硬盘， 完全 由 操作 系 
统 酌情 而 定 。 在 开始 同步 工作 前 ， 即 使 b_dirt 已 经 
为 1， 如 还 需要 往 这 个 缓冲 块 中 继续 写 入 数据 ， 仍 
然 可 行 。 将 来 操作 系统 只 同步 最 终 的 数据 ， 这 也 是 
缓冲 区 设计 指导 思想 的 另 一 种 体现 。 

















为 了 保证 数据 读 写 的 正确 性 ， 必 须 确保 数据 读 
写 的 有 序 。 比 如 ， 不 能 在 缓冲 块 数 据 同步 到 硬盘 块 








的 同时 ， 还 在 癌 这 个 缓冲 块 中 写 新 的 数据 。b_lock 
就 起 这 个 标识 作用 。 在 同步 缓冲 块 之 前 ， 必 须 把 这 
个 缓冲 块 加 锁 ， 即 b_lock=1。 操 作 系统 内 核 见 到 这 
个 标志 ， 就 不 再 将 进程 的 数据 写 入 这 个 缓冲 块 中 。 
这 样 在 同步 的 过 程 中 ， 绥 冲 块 中 的 数据 不 会 发 生 任 
何 变 化 ， 确 保 同 步 结束 时 ， 绥 冲 块 与 对 应 的 硬盘 块 
中 的 数据 是 一 致 的 。 也 就 是 说 读 写 缓冲 块 与 同步 数 
据 这 两 步 操作 不 能 同时 进行 。 当 b_lock 设 置 为 0 时 ， 
只 允许 操作 系统 进行 进程 与 缓冲 块 间 的 数据 交互 ; 
当 b_lock 设 置 为 1 时 ， 只 允许 操作 系统 进行 硬盘 与 绥 
冲 块 间 的 数据 交互 。 这 样 就 能 避免 同时 操作 。 
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锁 的 缓冲 块 进行 数据 交互 的 可 能 。 由 于 此 时 操作 系 
统 花 止 任何 进程 与 被 加 锁 的 缓冲 块 交 互 数据 ， 所 以 


操作 系统 只 有 将 这 样 的 进程 挂 起 ， 切 换 到 其 他 进程 
去 执行 ， 并 用 *b_wait 指 向 被 挂 起 的 进程 ， 以 便 缓冲 
块 解 锁 后 唤醒 被 挂 起 的 进程 。 当 需要 与 被 加 锁 的 组 
冲 块 进行 数据 交互 的 进程 不 止 一 个 时 ，*b_wait 实 际 
上 指 问 的 是 最 后 一 个 申请 与 被 加 锁 的 缓冲 块 进行 数 
据 交 互 的 进程 ， 其 余 的 进程 按 序 形成 一 个 隐 含 的 队 
列 ， 如 图 9-8 所 示 。 
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b_block 
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图 9-8 多 进程 访问 设备 文件 时 的 状态 示意 图 


当 一 个 进程 需要 与 硬盘 进行 数据 交互 时 ， 操 作 
系统 首先 遍历 缓冲 区 的 管理 结构 哈 希 表 。 如 果 通 过 
哈 希 表 找到 现成 的 缓冲 块 ， 哪 怕 它 还 被 其 他 进程 使 
用 着 ， 只 要 数据 有 效 ， 就 先 用 这 个 现成 的 。 用 现成 
的 就 不 用 从 硬盘 块 中 读 取 数据 ， 比 操作 硬盘 划算 得 
多 。 实 在 是 找 不 到 现成 的 ， 再 申请 一 个 空闲 的 缓冲 
块 。b_count 就 是 绥 冲 块 是 否 在 空闲 状态 的 标志 。 事 
实 上 ， 可 能 有 多 个 进程 提出 申请 ， 需 要 与 同一 个 组 
冲 块 进行 数据 交互 ， 每 增加 一 个 提出 申请 的 进程 ， 
b_count 就 加 1， 反 之 就 减 1。 如 果 b_count 最 后 被 削 
减 为 0， 说 明 这 个 缓冲 块 没 有 被 引用 ， 它 就 是 空闲 
缓冲 块 。 























有 了 这 些 措施 ， 束 从 体系 上 保证 了 用 户 进程 所 
要 读 写 的 数据 与 便 盘 对 应 数据 的 一 致 性 ， 并 且 实 现 
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接 氮 一 管道 。 


3. 利 用 文件 系统 实现 进程 间 通 信 一 一 管道 














常 道 是 进程 间 通 信 的 一 种 方式 ， 位 于 和 内存 ， 是 
内 存 中 的 概念 。 奇 怪 的 是 ， 管 道 不 是 用 内 存 管理 的 
方式 进行 宫 理 的 ， 而 是 用 文件 系统 的 管理 方式 来 官 
理 的 。 这 是 为 什么 ? 


进程 管理 的 设计 指导 思想 ， 就 是 要 使 进程 之 间 
完全 独立 和 隔离 。 你 护 模 式 就 是 根据 这 个 要 求 设计 
的 。 进 程 间 通信 意味 着 数据 要 跨越 进程 边 寞 流动 ， 
如 条 采取 直接 交互 的 方式 ， 显 然 违背 了 这 个 设计 指 
导 思 想 。 怎 样 做 才能 使 数据 合理 地 路 越 进程 的 保护 





边界 进行 流动 ， 既 实现 进程 间 通 信 ， 叉 不 破坏 操作 
系统 对 进程 边界 的 保护 ? 


仔细 分 析 ， 我 们 就 会 发 现 对 于 进程 来 说 ， 文 件 
一 种 每 个 进程 都 可 以 访问 的 资源 。 换 句 话 说 ， 文 
件 对 进程 而 言 是 共 带 的 。 如 果 将 进程 间 需 要 通信 的 
数据 以 文件 作为 中 转 站 ， 多 个 进程 同时 访问 一 个 文 
件 ， 有 的 进程 写 数据 、 有 的 进程 读数 据 ， 束 可 以 实 
现 进程 间 彼 此 的 数据 传输 。 这 么 做 既 满 足 了 进程 间 
独 并 、 阳 离 的 基本 上 思想 ， 叉 实现 了 进程 之 间 通 信 的 














然而 ， 文 件 代 表 的 是 外 设 ，CPU 与 外 设 的 通信 
速度 比 CPU 与 内 存 的 通信 速度 慢 2 一 3 个 量 级 。 操 作 
系统 既然 可 以 在 内 存 中 虚拟 软盘 ， 肯 定 也 可 以 虚拟 
文件 。 在 内 存 中 虚拟 一 个 专门 用 作 进 程 间 通 信 的 文 
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信 的 速度 。 由 于 管道 来 源 于 文件 ， 管 理 方 式 目 然 与 
文件 相同 。 这 就 是 官 道 为 什么 通过 文件 系统 管理 。 











当 父 进程 创建 子 进 程 的 时 候 ， 操 作 系 统 先 将 父 
进程 的 全 部 管理 数据 结构 复制 给 也 进程， 在 子 进 程 
加 载 目 身 的 代码 之 前 ， 分 吝 父 进程 的 代码 ， 等 到 加 
载 目 己 的 代码 后 ， 才 切断 共 孚 父 进程 代码 的 关系 。 
为 什么 不 在 子 进程 刚刚 创建 完毕 融 切 断 这 个 关系 ? 





因为 此 时 的 子 进 程 没 有 任何 目 己 的 代码 ， 加 载 
目 己 代码 的 工作 也 是 需要 代码 的 ， 这 份 代码 按照 
Linux 的 规则 ， 只 在 父 进程 中 有 ， 所 以 如 末 不 能 共 
诗 父 进 程 的 代码 ， 束 连 加 载 目 喘 代 码 的 工作 也 无 法 
完成 。 








共 胖 父 进程 代码 的 机 制 为 很 多 服务 器 程序 提供 
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在 地 执行 父 进 程 的 代码 ， 这 样 就 面临 父子 进程 同时 
使 用 同样 的 代码 、 数 据 的 局 面 ， 极 有 可 能 造成 数据 
混乱 。 为 了 避免 这 种 情况 的 发 生 ， 顺 理 成 草地 所 出 
页 写 保 护 机 制 。 有 共 体 撤 术 细节 在 6.4.2 节 讲解 过 。 页 
写 保 护 机 制 的 设计 指导 思想 是 防止 多 进程 访问 共享 
数据 导致 的 数据 混乱 。 依 此 类 推 ， 对 所 有 访问 共 孚 
数据 (包括 内 存 的 、 外 设 的 ) 可 能 导致 的 数据 混 
乱 ， 解 决 问题 的 基本 思路 与 此 类 似 。 














9.7 ”操作 系统 的 全 局 中 断 与 进程 的 局 





我 们 在 前 面 已 经 反复 多 次 提 到 中 断 。 中 断 对 操 
作 系 统 而 言 ， 其 重要 性 怎么 强调 都 不 过 分 。 下 面 ， 
我 们 沿 着 中 断 的 技术 路 线 同 前 延伸 ， 分 析 中 断 与 
task_interruptible 、task_uninterruptible 之 间 的 关系 。 


在 本 书 的 第 1 章 就 讲 到 过 CLI 关 中 断 ， 我 们 知道 
CLI 可 以 使 整个 操作 系统 不 能 收 到 中 断 信 号 ， 等 于 
天 了 整个 操作 系统 的 中 断 。 





task_interruptible 和 task_uninterruptible， 虽 然 它 
们 名 字 里 含 有 中 断 字样 ， 却 看 不 出 它们 和 通常 意义 
上 的 中 断 有 什么 直接 的 关系 。 








iB betask_interruptible#lltask_uninterruptible HY) (# 
用 ， 可 以 友 现 与 它们 关系 紧密 的 是 信号 。 为 什么 和 
言 号 有 关系 的 参数 却 起 了 一 个 和 中 断 有 关 的 名 字 ? 


回顾 中 断 技 术 可 以 知道 ， 中 断 技术 及 明 的 最 初 
动机 是 为 了 避免 操作 系统 频 蚂 地 主动 轮 询 外 设 的 IO 
状态 ， 空 耗 主 机 资源 。 中 断 技术 使 操作 系统 由 主动 
轮 询 变 为 被 动 啊 应 ， 极 大 地 降低 了 IO 过 程 中 主机 资 
源 的 消耗 ， 提 高 了 运行 效率 。 








对 比分 析 中 断 和 信和 号， 可 以 看 出 信号 明显 是 在 
模仿 中 断 的 技术 路 线 ， 使 进程 间 的 沟通 由 主动 轮 询 
变 为 被 动 啊 应 ， 同 样 大 幅度 减少 了 进程 间 沟 通 引 起 
的 操作 系统 的 消耗 ， 提 高 了 整体 运行 效率 。 比 如 ， 
shell 进 程 创 建 了 一 个 子 进程 ， 如 果子 进程 退出 ， 理 
论 上 ， 应 该 由 shell 释 放 子 进程 的 进程 管理 结构 ， 为 














子 进程 的 退出 做 善后 工作 。 问 题 是 : shell 怎 么 知道 
子 进程 要 退出 呢 ? 很 容易 想到 的 方法 是 询问 子 进程 
是 否 退 出 。 如 果 shell 创 建 了 几 十 个 子 进程 ， 依 照 这 
个 方法 ， 就 要 对 每 一 个 子 进程 进行 定期 轮 询 ， 查 看 
是 否 有 子 进 程 退 出 ， 而 且 不 论 有 几 个 子 进程 要 退 

出 ， 即 使 一 个 要 退出 的 子 进程 都 没有 ，shell 为 了 及 
时 处 理子 进程 的 退出 ， 仍 然 要 频繁 地 轮 询 子 进程 。 
这 与 中 断 技术 发 明之 前 ， 主 机 频繁 轮 询 外 设 的 IO 情 
形 极其 类 似 。 操 作 系 统 的 设计 者 借用 中 断 的 技术 路 
线 ， 设 计 了 模拟 中 断 的 信号 。 我 们 对 比 一 下 就 会 发 
现 ， 两 者 的 技术 路 线 非 常 相似 。 两 者 的 对 应 关系 如 
图 9-9 所 示 。 
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图 9-9 中 断 与 信号 的 对 比 示意 


可 以 有 发现， 两 者 的 对 称 性 很 强 ， 有 很 强 的 可 比 
性 。 两 者 的 区 别 在 于 中 断 是 针对 整个 操作 系统 的 ， 
而 信号 是 针对 进程 的 。 我 们 甚至 可 以 把 通常 的 中 靳 
看 成 整个 操作 系统 的 “全 局 中 断 ”， 信 和 号 是 进程 
的 “局 部 中 断 ”。 这 样 可 以 更 清楚 地 看 到 信号 的 本 质 
及 精髓 。 读 者 可 以 利用 对 比 的 方法 ， 深 入 理解 、 竺 








握 信 号 以 及 task_uninterruptible、task_interruptible。 


9.8 ”本 章 小 结 





到 此 为 止 ， 我 们 已 经 把 操作 系统 的 设计 指导 思 
想 这 一 草 的 内 容 讲解 完毕 。 当 然 ， 一 个 操作 系统 是 
非常 复杂 的 ， 要 想 设 计 出 一 个 可 用 的 操作 系统 ， 仅 
赁 这 一 章 的 内 容 是 远 远 不 够 的 。 但 本 章 的 内 容 对 帮 
助 读者 站 在 操作 系统 设计 者 的 角度 全 面 理解 、 把 握 
操作 系统 仍然 是 充分 的 。 


请 
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结束 语 


现在 是 全 书 的 结尾 ， 很 高 兴 能 在 此 和 您 见面 。 
根据 我 们 多 年 的 教学 经 验 ， 能 在 这 里 和 您 见面 ， 说 
明 您 在 操作 系统 方面 的 水 平 已 经 不 可 小 视 ! 因为 操 
作 系 统 实在 是 太 难 了 ， 绝 大 部 分 读者 中 途 就 已 经 放 
人 弃 了 。 如 末 您 还 感到 意犹未尽 ， 丈 请 您 回 过 头 去 重 
新 阅读 ， 细 细 品 味 ! 








“新 设计 团队 ” 价 介 


本 书 由 中 科 院 的 指导 老师 杨 力 祥 先 生 市 领 
的 “新 设计 团队 ”共同 完成 。 





作者 的 话 





操作 系统 的 源 代码 错综复杂 ， 千 头 万 绪 ， 但 在 
我 看 来 ， 操 作 系 统 并 不 是 一 堆 源 代码 ， 而 是 一 部 精 
蜜 的 机 磋 。 看 代码 之 前 ， 眼 前 会 先 浮 现 出 一 部 正在 
运转 的 机 右 ， 而 代码 提供 的 就 是 这 部 机 占 的 “设计 
图 纸 ”?”， 它 说 明了 : 这 部 机 硕 局 动 过 程 中 要 打开 哪 
些 开 关 ， 以 及 它们 打开 和 关闭 的 先后 顺序 和 相互 之 


AAAs: Ba SARA, RELA ZR 
构 和 设计 的 细节 在 脑海 中 变 得 越 来 越 清 晰 ， 在 此 过 
程 中 ， 有 时 候 会 发 现 上 自己 对 机 器 的 某 个 部 件 的 运转 
情况 不 太 清 臣 ， 于 是 就 会 根据 目 己 对 机 需 情 况 的 了 
解 推 测 出 其 他 应 该 会 有 与 该 部 件 的 运转 相配 合 的 其 
他 部 件 ， 于 是 拿 出 “设计 图 纸 ” 对 照 ， 结 果 与 推测 的 
完全 一 致 。 














在 了 解 这 人 台 机 硕 的 过 程 中 ， 也 会 不 断 思 考 一 些 
问题 : 比如 ， 各 零 部 件 为 什么 要 这 样 设 计 ， 为 什么 
要 以 这 样 的 顺序 局 动 ， 司 动 后 为 什么 要 这 样 啊 应 菏 
些 操 作 ， 更 重要 的 是 ， 这 一 切 都 是 唯一 的 吗 ， 有 没 
有 其 他 可 能 ， 后 果 叉 会 是 什么 ? 








在 我 的 导师 杨 力 祥 老 师 的 帮助 下 ， 我 不 仅 对 损 
作 系统 中 “是 什么 "有 了 全 面 的 认识 ， 而 且 对 “为 什 


么 ”有 了 体系 性 的 提高 。 在 我 看 来 ， 理 解 “操作 系 
统 ” 这 种 机 融 的 原理 的 过 程 与 理解 “汽车 ”、“ 坦 
殉 “战斗 机 ”等 这 些 机 咒 的 原理 的 过 程 在 本 质 都 
古 一 样 的 。 


本 书 是 我 们 对 这 部 机 器 的 运转 情况 及 其 本 质 原 
理 的 生动 描述 ， 愿 与 您 分 享 。 


陈 大 市 





用 “图 ”说 话 ， 这 是 本 书 的 最 大 特色 。 的 确 ， 当 


你 试图 去 摘 述 东 种 有 着 复 杂 结 构 的 事物 时 ， 图 形 远 
比 文字 更 能 让 人 理解 。 





有 了 时候 说 了 半天 ， 还 真 不 如 画 个 图 来 得 简单 。 
书 中 包括 339 张 图 ， 每 张 图 都 是 精心 设计 和 绘制 
的 ， 每 条 线 的 像素 宽度 和 位 置 都 是 经 过 精确 计算 
的 。 毫 不 夸张 地 说 ， 这 本 书 不 仅 是 在 讲解 操作 系 
统 ， 更 是 在 绘制 操作 系统 ! 本 着 对 读者 负责 的 态 
度 ， 本 书 在 所 有 技术 细节 上 都 力求 完美 ! 


MAE 








我 很 幸运 在 杨 老 师 的 指引 下 加 入 了 “新 设 计 团 
队 ”， 叉 很 笠 运 地 与 新 设计 团队 的 伙伴 们 一 起 共同 
努力 完成 了 本 书 的 创作 。 虽 然 操 作 系 统 是 电脑 中 最 
最 复杂 的 程序 ， 几 乎 所 有 讲解 操作 系统 的 书 都 让 人 
望 而 生 苦 ， 但 是 本 书 不 是 一 本 让 你 只 看 几 页 就 看 不 
下 去 并 束之高阁 的 书 ， 它 极 有 可 能 是 一 本 会 被 你 翻 
烂 的 书 。 我 们 以 抽 丝 剥 重 的 方式 对 Linux 操 作 系 统 
的 内 核 设 计 原 理 进行 了 放 析 ， 和 希望 能 帮助 大 家 从 安 
观 到 微观 上 去 认识 整个 操作 系统 。 虽 然 99% 的 程序 
员 一 幸子 也 不 会 对 操作 系统 的 架构 和 设计 进行 修 
改 ， 但 是 我 们 希望 每 个 程序 员 都 能 从 本 书 中 或 多 或 
少 地 得 到 一 些 局 肥 ， 成 为 那 1%。 
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操作 系统 在 计算 机 中 的 地 位 举足轻重 ， 但 是 它 
的 学 习 难 度 也 是 非常 大 的 。 很 多 人 学 习 操 作 系统 的 
信心 和 雇 心 ， 第 币 会 被 各 种 学 习 资料 中 密 密 及 态 的 
文字 和 庞杂 的 程序 代码 而 击 涡 。 


我 所 在 的 “新 设计 团队 ”在 研究 Linux 操 作 系 统 
时 以 它 的 真实 的 运行 时 序 为 主线 ， 从 一 个 全 新 的 视 
角 对 操作 系统 进行 了 草 新 审视 ， 于 古 我 们 的 研究 在 
短 时 间 内 取得 了 显 普 的 成 果 。 


我 们 在 研究 的 过 程 中 以 图 解 的 方式 勾勒 出 了 损 


作 系 统 的 真实 运行 时 序 ， 并 根据 这 种 思路 完成 了 本 
书 。 通 过 书 中 精心 绘制 的 、 能 真实 反映 操作 系统 运 
行 时 序 的 300 多 幅 图 ， 即 使 你 不 看 操作 系统 的 源 代 
码 ， 也 可 对 操作 系统 的 运行 有 初步 的 了 解 。 当 你 深 
入 分 析 每 一 幅 图 的 细节 时 ， 结 合 与 图 相关 的 说 明文 
字 ， 你 将 会 友 现 操作 系统 的 原理 与 机 制 与 真实 的 运 
行 代码 是 无 颖 衡 接 的 。 如 果 理 解 了 本 书 中 的 内 容 ， 
操作 系统 不 将 再 是 虚无 绿 弛 的 ， 它 的 每 一 个 动作 都 
能 在 源 代 码 中 找到 相应 的 实现 。 





























希望 此 书 的 与 众 不 同 的 讲解 方式 能 给 你 市 来 全 
新 的 学 习 体验 ， 和 希望 它 能 帮 你 真正 学 情操 作 系统 ， 
少 走 弯路 。 








ENA UK 








不 懂 汇编 语言 和 C 语 言 能 看 懂 操作 系统 的 源 代 
码 吗 ? 你 可 能 认为 我 在 开玩笑 ， 不 过 这 对 我 来 说 并 
不 是 玩笑 ， 而 是 事实 。 我 是 环境 工程 /环境 化 学 科班 
出 身 ， 连 谭 浩 强 先 生 的 入 门 级 C 语 言 教程 都 不 曾 读 
过 。 一 年 多 前 ， 当 杨 老 师 说 让 我 和 大 家 一 起 研究 和 
学 习 操作 系统 时 ， 那 时 我 也 曾 仿 得 过 。 好 在 杨 老 师 
的 方法 很 独特 ， 在 他 的 指导 下 ， 我 很 快 就 入 了 门 。 
书 中 的 内 容 是 我 学 习 操作 系统 时 的 学 习 方 法 和 思维 
方式 的 真实 写照 。 





当 你 手 氛 这 本 书 时 ， 看 过 我 的 学 习 经 历 之 后 ， 
你 是 不 是 对 目 己 学 习 操 作 系 统 更 加 充满 信心 ? 本 书 
独特 的 讲述 方式 、 精 心计 算 与 绘制 出 的 图 片 ， 以 及 
对 操作 系统 设计 原理 的 精辟 的 讲解 ， 将 会 成 为 你 操 
作 系 统 探秘 之 旅 的 指南 针 。 
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这 本 书 里 面 有 很 多 入 容 都 是 其 他 同 闫 书 中 不 曾 
探讨 的 ， 比 如 : 操作 系统 是 如 何 进入 尽 速 过 程 的 ? 
main 函 数 竞 然 不 是 操作 系统 的 起 始点 ? 内 核 程 序 和 


用 户 程 序 的 等 级 为 何如 此 森严 ? 操作 系统 中 居然 还 
有 “ 主 妈 机 制 *”? 这 些 结论 不 但 生动 有 趣 ， 而 且 对 于 
理解 操作 系统 有 重大 的 意义 。 











然而 ， 这 并 不 仅 是 一 本 描述 络 论 的 书 。 本 书 真 
下 的 精华 是 它 呈 现 出 的 一 种 体系 性 的 思考 方式 ， 这 
种 思考 方式 指导 我 们 在 纷 楷 复杂 的 操作 系统 源 代 但 
中 理 清 了 它 的 核心 设计 思想 ， 然 后 我 们 根据 这 种 思 
想 构 建 了 目 己 的 理论 体系 ， 以 指导 实际 工作 和 解决 
具体 问题 。 这 种 思考 方式 不 仅 适 用 于 操作 系统 ， 而 
且 它 是 一 切 原 及 性 思考 的 源 动 力 。 这 种 思考 方式 是 
对 几 十 年 来 我 们 只 学 科学 结论 却 忽略 科学 探索 方式 
的 填 鸭 式 教 育 的 突破 。 对 操作 系统 的 理解 只 是 本 书 
的 作者 们 在 这 种 思考 方式 下 解决 具体 问题 的 一 个 很 
小 的 案例 。 这 上 段 经 历 犹如 一 段 美妙 的 旅程 ， 是 一 个 











充满 了 推论 、 探 索 、 假 设 、 证 伪 、 构 建 体系 的 过 
程 。 如 果 你 现在 已 经 准备 好 了 与 我 们 一 起 分 享 这 个 


过 程 ， 那 么 ， 祝 你 旅途 愉快 ! 





联系 作者 


如 果 你 对 本 书 有 意见 或 建议 ， 欢 迎 你 通过 邮 
箱 : xsjlinuxOS@163.com 与 作者 联系 。 


